Kitabı oku: «Не рычите на собаку! Книга о дрессировке людей, животных и самого себя», sayfa 3
Клик!
Тренеры, работающие с морскими млекопитающими, пользуются условным подкреплением (обычно свистком) в обучении китов, дельфинов, тюленей и белых медведей. Эту концепцию впервые применил в дельфинариях в 1960-е годы Келлер Бреланд, ученик Б. Ф. Скиннера. Бреланд назвал свисток «мостовым стимулом», потому что этот сигнал не только информировал дельфина о том, что он только что заслужил рыбу, но еще и заполнял промежуток времени между важным событием, то есть желательным поведением, и возвращением в бассейн. Усвоив этот сигнал, дельфины сразу же подплывали к бортику за заслуженной наградой.
Бихевиористская литература подтверждает важность этих аспектов условного подкрепления. Но со временем были открыты новые преимущества этого метода. В 1990-е годы многие дрессировщики стали использовать условное подкрепление. Те же приемы стали использовать хозяева собак (см. главу 6). Поскольку владельцы собак применяют металлический кликер в пластиковом корпусе, обучение собак стали называть «кликер-тренингом».
Звук, используемый в кликер-тренинге, является не только условным подкреплением и мостовым стимулом между зарабатыванием и получением пищи. Этот сигнал выполняет и другие функции. Во-первых, он устанавливает то, что Огден Линдсли назвал «событийным маркером». Благодаря ему животное точно понимает, какое именно поведение является желательным. Но у сигнала есть и другие значения. Он передает контроль в руки, лапы, ласты или в то, что есть у объекта обучения. Через определенное время объект не просто повторяет желательное поведение, но еще и демонстрирует намерение: «Эй! Я заставил тебя кликнуть! Посмотри на меня, я собираюсь сделать это снова!» Кликер-тренеры называют этот момент «загоранием лампочки». Он чрезвычайно важен и для тренера, и для ученика.
Эллен Риз указала мне на то, что условное подкрепление в кликер-тренинге является также завершающим сигналом. Он означает «работа сделана». Как говорит Гэри Уилкс: «Клик завершает поведение». Такой сигнал является подкреплением сам по себе. Но это порой шокирует традиционных тренеров. Сигнал не кажется им естественным. Им странно, что для того, чтобы научить собаку держать палку, нужно кликнуть, когда она ее только возьмет, а потом ей можно позволить бросить палку и насладиться заслуженной наградой.
Еще одно преимущество маркерных сигналов заключается в том, что их можно использовать для передачи конкретной информации. Полицейский Стив Уайт рассказал мне, что как-то раз послал свою немецкую овчарку искать брошенный предмет, который упал на верхушку шестифутового куста. Собака долгое время бесплодно обнюхивала землю. Когда же она подняла голову, Стив кликнул. Собака втянула в себя воздух, насторожилась и стала искать в том месте, куда и упал предмет. Она даже поднималась на задние лапы, чтобы лучше чувствовать воздух. Без всякой помощи со стороны Стива собака нашла нужный предмет, упавший на густой кустарник, и достала его.
Сигнал продолжения
Интересно то, что при общении с собакой Стив использовал подкрепление, которое не являлось сигналом завершения. Это был сигнал продолжения. Сигнал подкрепил «высокое» обнюхивание, и желательное поведение продолжалось до тех пор, пока потерянный предмет не был найден. В первом издании этой книги я писала о том, что условное подкрепление можно использовать несколько раз, не сочетая его с подкреплением реальным. Я писала так, потому что в парке «Си Лайф» мы не раз поступали так с дельфинами, формируя длительное поведение или поведенческие цепочки. В то время я не понимала, что на самом деле мы использовали два (по меньшей мере) условных подкрепления или маркерных сигнала: свисток означал все вышесказанное («Правильно, хорошо, пища тебя ждет, иди получи свое лакомство, работа сделана»), а второй, приглушенный, свисток означал совсем другое («Это хорошо, но работа еще не закончена»).
Многие начинающие кликер-тренеры, с которыми я работала в 90-е годы, были теми, кого писатель Морган Спектор называет «перекрестными» тренерами (то есть людьми, опытными в тренинге, основанном на коррекции, но пытающимися перейти к системе положительного подкрепления). Я обнаружила, что они слишком часто используют кликеры бесцельно, из-за чего ценность сигнала недопустимо снижается. Необходимо усвоить главное правило – «один клик – одно угощение». Только так можно эффективно сформировать желательное поведение.
Однако в реальной жизни возникает множество ситуаций, в которых очень полезен может быть промежуточный подкрепляющий стимул. Так произошло с собакой Стива Уайта. В такой ситуации можно использовать иной подкрепляющий стимул, который говорит ученику: «Все хорошо, продолжай в том же духе». Интересно, что сигнал продолжения не должен быть непосредственно связан с первичным подкреплением. Просто начните вставлять его перед завершающим кликом, и ученик быстро поймет, что он ведет к реальному подкреплению.
Затем вы можете включить воображение и использовать его в качестве информативного маркерного сигнала внутри цепочки, не разрывая ее. Например, на соревнованиях по аджилити собак друг за другом пускают на полосу препятствий на время. Владелец должен дать понять собаке, какое препятствие нужно преодолеть следующим. Причем делается это в крайней спешке. Я видела, как собака преодолевала одно препятствие, а потом замирала в недоумении, потому что не понимала, что делать дальше. Бросаться в туннель или прыгать? Собака недоуменно крутила головой. Хозяин крикнул: «Да», и собака взяла барьер. Она правильно поняла хозяина и быстро прошла всю дистанцию.
Как и в случае с сигналом завершения, неважно, какой стимул вы используете для продолжения действий. Это может быть кликер, свисток, окрик или движение руки. Важно, чтобы стимул не являлся сигналом бессмысленного подбадривания, который лишь отвлекает животное или случайно подкрепляет нежелательное поведение. Нужно сформировать прочное и точно используемое условное подкрепление.
Условное отрицательное подкрепление
Правильно поданное условное положительное подкрепление говорит ученику: «То, что ты сейчас делаешь, хорошо и правильно. Это действие принесет тебе пользу, так что продолжай в том же духе». Но можно также установить отрицательный условный сигнал. Такое действие говорит ученику: «То, что ты сейчас делаешь, нехорошо. Если ты не прекратишь, с тобой случится что-то плохое».
Условные отрицательные подкрепления более эффективны, чем угрозы. Некоторые субъекты – и в частности, кошки – не реагируют на крики и выговоры. Но моей подруге удалось совершенно случайно отучить кота от дурной привычки драть диван, сделав условным раздражителем слово «Нет!». Как-то раз, готовя обед, моя подруга уронила большой медный поднос, который упал прямо рядом с котом. Когда поднос падал, подруга воскликнула: «Нет!» – а после этого слова поднос приземлился на пол со страшным звоном. Кот ужасно перепугался, подскочил, шерсть на нем встала дыбом. Когда в следующий раз подруга заметила, что кот дерет диван, она громко крикнула: «Нет!» Испуганный кот тут же умчался прочь. Достаточно было двух повторений, чтобы раз и навсегда положить конец вредной привычке.
Выговоры являются неотъемлемой частью нашего существования. Использование в качестве основного средства обучения положительного подкрепления вовсе не означает, что вы не можете при необходимости использовать и отрицательные подкрепления. Это жизненно необходимо, например, когда ребенок пытается засунуть шпильку в электрическую розетку. Однако часто мы совершаем две ошибки: во-первых, не учитываем побочный эффект, который оказывает отрицательное подкрепление на ученика (см. главу 4, «Наказание»). И, во-вторых, используем выговоры и наказания, не устанавливая предупреждающего сигнала, то есть условного отрицательного подкрепления.
Например, любой, кто считает необходимым использовать электрошокер при воспитании собаки, должен всегда говорить «нет», когда собака что-то делает неправильно. После этого нужно сделать паузу, прежде чем нажать на кнопку шокера, чтобы собака имела возможность избежать отрицательного подкрепления, изменив свое поведение. Простое нажатие на кнопку без предупредительного сигнала превратит ваше действие в наказание, воздействие которого на будущее поведение и на готовность собаки подчиняться вашим приказам абсолютно непредсказуемо. Третья распространенная ошибка – продолжать нажимать на кнопку даже тогда, когда собака уже перестала делать то, что вам не нравилось. Таким образом вы наказываете ее за оба вида поведения – неправильное и правильное.
Неумение использовать условное отрицательное подкрепление повышает количество реальных отрицательных подкреплений, которые используются в коррекционной тренировке. Это значительно замедляет процесс обучения. Традиционные дрессировщики собак и лошадей иногда тратят на выработку желаемого поведения гораздо больше времени, чем те, кто использует положительное подкрепление. Порой время дрессировки увеличивается на несколько месяцев, а то и лет. Это происходит не только потому, что они полагаются исключительно на наказание (этот прием останавливает поведение, а не дает начало новому), но еще и потому, что они используют реальные отрицательные подкрепления, не сформировав условного отрицательного подкрепления. В результате требуются сотни повторений, прежде чем животное поймет, чего же от него хотят.
Среди дрессировщиков собак в последнее время приобрел популярность особый вид условного отрицательного подкрепления. Речь идет о маркере отсутствия вознаграждения. Обычно таким маркером служит слово «Неправильно», произнесенное нейтральным тоном. Идея заключается в том, что, когда собака пытается вести себя неправильно, чтобы понять, чего же вы хотите, вы помогаете ей, сообщая, что именно она делает не так. Вы формируете сигнал, который говорит животному: «Эти действия не будут вознаграждены».
Б. Ф. Скиннер определял отрицательное подкрепление, как лишение чего-то желанного. В этом смысле сигнал «неправильно» является условным отрицательным подкреплением, поскольку он означает недоступность вознаграждения.
Занимаясь дрессировкой собак, я сталкивалась с ситуациями, в которых сигнал «неправильно» был очень полезен. Если ваша собака демонстрирует широкий набор полностью сформированных видов поведения, то есть является сложным объектом для дрессировки, вы можете использовать сигнал «неправильно» в качестве намека на изменение поведения. В данной ситуации он означает: «Этот путь никуда не приведет. Попробуй что-нибудь другое».
Этот прием работает только в том случае, если вы уже использовали положительные подкрепления различных видов поведения, а ваша собака активно ищет новые пути, чтобы заставить вас кликнуть или дать ей реальное подкрепление. Люди испытывают трудности с условным отрицательным подкреплением, когда используют его с неопытной собакой, которая не понимает, чего от нее хотят.
Прикажите собаке сесть, а если она этого не сделает, скажите: «Неправильно». Если собака уже понимает, что этот сигнал означает отсутствие вознаграждения, она поймет, что вы наказываете ее за то, что она не села. Но это еще не означает, что она действительно сядет. На самом деле результат будет таким же, как и при любом другом наказании – то есть абсолютно непредсказуемым. Собака может вообще перестать реагировать на слова и убежать или бросить все и начать искать собственные подкрепления, то есть вести себя неподобающе – лаять, тянуть поводок, обнюхивать землю, скрести, обращать внимание на все, что угодно. Поэтому условное и реальное отрицательное подкрепление лучше использовать тогда, когда вам необходимо прекратить нежелательное поведение, а для выработки новых навыков пользуйтесь положительным подкреплением.
Режимы подкрепления
Существует распространенное заблуждение, что если вы начали вырабатывать какое-то поведение с помощью положительного подкрепления, то должны продолжать пользоваться этим методом всю жизнь. А если перестать использовать этот метод, желательное поведение прекратится. На самом деле это не так. Постоянное подкрепление необходимо только на этапах обучения.
Вы можете постоянно хвалить малыша за то, что он научился пользоваться горшком. Но как только поведение закреплено, дальше оно проявляется автоматически. Мы подаем (или должны подавать) массу подкреплений начинающему. Когда ребенок учится кататься на велосипеде, вы наверняка постоянно повторяете ему: «Правильно, а теперь прямо… Ты сделал это, хорошо!» А теперь представьте, насколько глупо вы будете выглядеть, если продолжите хвалить ребенка, который уже отлично катается на велосипеде. Да и ребенок подумает, что вы сошли с ума.
Чтобы заученное поведение надежно закрепилось, вовсе не нужно подкреплять его каждый раз. Наоборот, очень важно не подкреплять поведение на регулярной основе, а использовать подкрепление лишь от случая к случаю, случайно и непредсказуемо.
Психологи называют это вариативным режимом подкрепления. Вариативный режим намного более эффективно поддерживает поведение, чем постоянный и предсказуемый. Один психолог объяснил мне это так. Если вы купили новую машину, которая резво трогается с места, и в один прекрасный момент она почему-то не завелась, вы несколько раз попробуете повернуть ключ, но потом поймете, что что-то сломалось, и позвоните механику. Поворачивание ключа в отсутствие ожидаемого немедленного подкрепления быстро прекращается. Если же у вас старая машина, которая почти никогда не заводится с первой попытки, и для того, чтобы ее завести, требуется длительное время, вы будете поворачивать ключ снова и снова. Поворачивание ключа длительно подкреплялось в вариативном режиме. И поэтому это прочно закрепленное поведение.
Если я буду давать дельфину рыбу за каждый прыжок, животное станет прыгать невысоко и вяло – лишь бы получить рыбу и отделаться от меня. Если я прекращу давать рыбу, дельфин быстро перестанет прыгать. Но можно поступить иначе. Дельфин научился прыгать за рыбу. Теперь я начинаю подкреплять первый, третий и последующие прыжки случайным образом. Тогда желательное поведение закрепится более прочно. Не получивший вознаграждения дельфин станет прыгать более часто, надеясь вытянуть счастливый билет, а энергичность прыжков может даже возрасти. Это позволит мне избирательно подкреплять лучшие прыжки. Используя вариативный режим, я сформирую требуемое поведение.
Но даже профессиональные дрессировщики не всегда правильно используют вариативный режим положительного подкрепления. Понять и принять эту концепцию бывает нелегко.
Мы понимаем, что не нужно наказывать за неправильное поведение, если это поведение прекратилось. Но мы не понимаем, что необязательно и даже нежелательно вознаграждать правильное поведение постоянно.
Стремясь закрепить дисциплину животного с помощью положительного подкрепления, мы оказываемся менее уверенными в себе.
Привлекательность вариативного режима лежит в основе всех азартных игр. Если бы каждый раз, когда вы опускали мелкую монетку в игровой автомат, вам выпадала монетка более крупного достоинства, вы быстро заскучали бы. Да, вы обогатитесь, но вам будет скучно. Люди любят игровые автоматы именно потому, что предсказать результат практически невозможно. Вы можете ничего не выиграть, выиграть маленькую сумму или получить огромный выигрыш. Невозможно понять, в какой момент будет получено подкрепление (это может случиться даже в самый первый раз). Почему некоторые люди впадают в игровую зависимость, а некоторые – нет, это другой вопрос. Но для тех, кто попался на крючок, привлекательным является именно вариативный режим подкрепления.
Чем дольше сохраняется вариативный режим, тем прочнее он закрепляет поведение. Но длительность режима работает против вас в тех случаях, когда вы стремитесь устранить определенный стандарт поведения.
Неподкрепленное поведение угасает само собой. Но если поведение время от времени подкрепляется, пусть даже спорадически – одна сигарета, одна рюмка, одна уступка капризному ребенку или нудному партнеру, – оно не угаснет, а, напротив, прочно закрепится.
И добьетесь вы такого нежелательного результата с помощью длительного вариативного режима. Так человек, бросивший курить и случайно позволивший себе одну сигарету, может снова превратиться в отъявленного курильщика за одну минуту.
У каждого из нас есть знакомые, которые почему-то продолжают жить с супругами или любовниками, хотя те относятся к ним несправедливо. Мы привыкли считать, что такое случается только с женщинами, которые влюбляются в грубых, невнимательных, эгоистичных и даже жестоких людей. Но это происходит и с мужчинами. Мы все знаем таких людей. Даже после развода или расставания с неподходящим партнером они ухитряются найти себе нового точно такого же.
Являются ли эти люди по каким-то глубинным психологическим причинам постоянными жертвами? Возможно. Но не являются ли они жертвами длительного вариативного режима? Вступив в отношения с обаятельным, сексуальным, веселым и внимательным человеком, который со временем превращается в настоящего монстра, хотя время от времени все же проявляет свою хорошую сторону, вы живете надеждой на те редкие моменты, когда вам удается получить столь желанное положительное подкрепление: обаяние, сексуальность, внимание и заботу.
С точки зрения здравого смысла это кажется странным, но с точки зрения дрессировщика, все абсолютно ясно. Чем более редкими и непредсказуемыми будут такие моменты, тем более сильное воздействие они окажут на вас и тем прочнее укрепится поведение. Более того, легко понять, почему человек, когда-то находившийся в таких отношениях, стремится вступить в них вновь. Отношения с нормальным партнером, который почти всегда дружелюбен и нежен, кажутся ему скучными. Ему недостает редких, долгожданных и оттого гораздо более сильных эмоций, связанных с вариативным подкреплением.
А теперь взглянем на то же состояние с точки зрения манипулятора: «Она/он будет у меня из рук есть и делать все, что я захочу, только ради моего комфорта, пока я буду давать ей/ему то, чего она/он хочет… иногда». Так сутенеры держат в ежовых рукавицах своих проституток. Это действительно очень мощное средство, но стоит жертве понять, что «обаяние» действует только по причине редкости и случайности своего проявления, как она или он тут же смогут выйти из такого рода отношений и найти себе нормального партнера.
Исключения из правила вариативного подкрепления
Не следует прибегать к вариативному режиму в процессе закрепления конкретного поведения, когда поведение связано с решением определенных задач или выполнением тестов путем выбора.
В процессе обучения послушанию собакам предлагают выбрать из массы различных предметов те, которые держали в руках их хозяева. Каждый раз, когда собака сделает правильный выбор, ее нужно хвалить, чтобы она знала, что нужно делать в следующий раз. В тестах на различение – например, при выборе более высокого из двух звуков – ученик должен получать подкрепление при каждом правильном ответе. Только так он будет понимать, какой вопрос ему задан. (Разумеется, в такой ситуации нужно использовать условное подкрепление.) Разгадывая кроссворд или собирая пазл, мы получаем подкрепление своим правильным предположениям, поскольку только они «подходят» к данному месту. Если бы при собирании пазла в любом месте можно было использовать разные фрагменты, то вы не получили бы положительного подкрепления верного выбора. А это и есть обратная связь, которая необходима в большинстве ситуаций выбора путем проб и ошибок.
Долговременные программы поведения
Кроме вариативных режимов можно установить также фиксированный режим подкрепления, при котором субъект ради получения подкрепления должен работать в течение определенного периода времени или определенное количество раз продемонстрировать желательное поведение.
Например, я могут заставить дельфина прыгать шесть раз подряд, используя подкрепление только при каждом шестом прыжке. Очень скоро дельфин усвоит, что от него требуется. Проблема с фиксированным режимом заключается в том, что более ранние проявления желательного поведения не подкрепляются, поэтому они будут выполняться с минимальными усилиями. В случае с дельфиньими прыжками можно быть уверенным, что первые пять будут довольно посредственными, а по-настоящему качественным только последний, за которым последует подкрепление.
Такой эффект фиксированного режима, по-видимому, влияет на выполнение множества человеческих задач – например, на сборочном конвейере. Для того чтобы получить подкрепление, необходимо проработать определенное количество времени. Но, поскольку подкрепление поступает по фиксированному режиму и не зависит от качества работы, человек, естественно, стремится выполнять минимальный объем работы, достаточный лишь для сохранения рабочего места. В начале рабочего периода показатели могут быть особенно плохими. Выплаты по пятницам – это фиксированное подкрепление, которое приводит к «черному понедельнику».
При работе с дельфинами случайное подкрепление первого или второго прыжка наряду с шестым помогает закрепить поведение. При работе с людьми различные виды поощрительных бонусов или иные подкрепления (премии, к примеру) самым прямым образом связаны с качеством и количеством продукции. Нарушение синхронности обычного подкрепления оказывается весьма эффективным.
С помощью фиксированного или вариативного режимов можно выработать невероятно длинные поведенческие цепочки. Цыпленка можно приучить сто и более раз нажимать на кнопку ради единственного зерна кукурузы. В человеческом обществе мы встречаемся с массой примеров отложенных поощрений. Один психолог как-то пошутил, что самый длительный период неподкрепляемого поведения – это обучение в школе.
В долговременных режимах иногда возникает так называемая точка невозврата. Для цыпленка это определяется обменными процессами: когда на нажатие кнопки он начинает тратить больше энергии, чем может восстановить при получении зернышка, поведение начинает угасать – цена работы падает так низко, что ее просто становится незачем делать. Такое сплошь и рядом происходит с людьми.
При очень длительных интервалах между подкреплениями происходит и еще одно явление, а именно, замедленный старт. В начале процесса цыпленок нажимает на кнопку с одинаковой частотой, поскольку каждое нажатие приближает его к желанному подкреплению. Но исследователи заметили, что по мере увеличения промежутка между подкреплениями цыпленок начинает поведенческую цепочку все позже и позже.
Такое явление называют отсроченным началом поведения с долговременной программой, и оно очень хорошо знакомо всем людям. Когда нам предстоит длительная работа – заполнение налоговой декларации или уборка в гараже, – мы придумываем для себя массу оправданий для того, чтобы не приступать к ней прямо сейчас. Иногда даже написание письма является для нас долговременной программой. Стоит нам начать, и мы справляемся с задачей вполне неплохо. Но, боже мой, до чего же трудно заставить себя сесть к столу и начать писать!
Джеймсу Терберу было так трудно начинать статью, что он порой обманывал жену, которая (что и неудивительно) заставляла его писать, потому что только так они могли оплатить арендную плату за жилье. Тербер уходил в свой кабинет и целое утро лежал на диване, держа книгу в одной руке, а другой рукой случайным образом нажимая на кнопки пишущей машинки. Желание отсрочить неприятный момент начала длительной работы оказывается гораздо сильнее перспективы получения положительного денежного подкрепления. А постукивание по клавишам пишущей машинки избавляло Тербера от отрицательного подкрепления, то есть от упреков жены.
Для того чтобы преодолеть это явление, необходимо установить подкрепление за начало работы. В работе с дельфинами я, к примеру, использовала случайное подкрепление за первый или второй прыжок из серии в шесть прыжков. Тот же прием я довольно эффективно применяла в аутотренинге. В течение нескольких лет я училась в вечернем институте. Занятия проходили один-два раза в неделю. Три часа уходило на занятия, и два часа я тратила на дорогу. Около пяти часов вечера я всегда испытывала ужасный соблазн не ходить. Но потом я обнаружила, что, если разбить дорогу на пять шагов – дорога до станции метро, ожидание поезда, пересадка, автобус до университета и подъем по лестнице до класса – и подкреплять завершение каждого шага маленьким кусочком шоколада, который я любила, но обычно не ела, то будет гораздо проще выбраться из дома. За несколько недель я научилась проделывать весь путь и без шоколада, и без внутренней борьбы.
Ücretsiz ön izlemeyi tamamladınız.