Оперантное обусловливание

Оперантное обусловливание является активным поведением, которому человек или животное обучаются в определенной ситуации. Название происходит от латинского слова орегайо, что в переводе обозначает действие. «Обусловливание» же свидетельствует о том, что обучение действию требует определенного условия, так как возникает ассоциативная связь между конкретным поведением и стимулом, который называется подкреплением.

Этот тип обучения позволяет организму менять свои действия в зависимости от тех последствий, которые оно порождает. Если следствием некоторого поведения будет что-то, что организм воспринимает как положительный результат, то оно с большей вероятностью будет повторено в будущем. Если же поведение ведет к неприятным для организма последствиям, то вероятность его повторения резко снизится. Система позитивных последствий называется подкреплением, а негативных -наказанием. Например, если маленький ребенок, случайно произнеся два раза подряд слог: «Ма», - вслед за эти услышит восторженные слова матери и увидит счастливую улыбку, то вероятность того, что он тут же произнесет это еще раз, резко возрастет. Если же за этими звуками не последует определенных действий, то, скорее всего, они исчезнут из его набора словесных реакций.

Таким образом, подкрепление - это такое воздействие, при котором появление или исчезновение какого-то стимула в результате той или иной поведенческой реакции повышает вероятность повторения этой реакции [Годфруа, 1992]. Выделяют положительное и отрицательное подкрепление. Положительным подкреплением является событие, сочетающееся

с каким-либо действием и ведущее к увеличению вероятности его повторения. Отрицательным подкреплением является избегание негативной реакции. Например, в эксперименте, в котором после звукового сигнала подавался на дно клетки электрический ток, подпрыгивая, крыса избегала удара. Звук служил сигналом животного к прыжку. Более точным было бы говорить в данном случае не об отрицательном, а об аверсивном (аверсивное поведение - поведение избегания) подкреплении, поскольку оно позволяет избежать неприятного воздействия стимула. Примером отрицательного подкрепления является, ситуация, когда ребенок выполняет некоторую работу не для того, чтобы получить что-то приятное, а для того, чтобы избежать неприятных для него нареканий со стороны родителей. Негативное подкрепление отличается от наказания, поскольку наказание ведет к исчезновению реакции, тогда как негативное подкрепление ведет к формированию реакции избегания.

Выделяют несколько типов оперантного обусловливания. Американский психолог Э. Торндайк [ТЬогпоЧке, 1890] исследовал метод проб и ошибок. Он предложил эксперименты на животных в особых «проблемных» клетках. В одном из них животное помещалось в «проблемную» клетку. Оно могло выйти и взять пищу, положенную вне клетки, если нажимало на деревянную педаль. Двигаясь внутри клетки, животное случайно наступало на педаль и получало пищу. После каждого открытия клетки вслед за нажатием педали поведение животного менялось, что выражалось в сокращении времени следующего нажатия на педаль. Тем самым оно освобождалось все быстрее и быстрее.

Э. Торндайк назвал это явление «законом эффекта». Согласно этому закону, вероятность повторения действия, приведшего к желательному результату, в дальнейшем поведении резко возрастает. Если же последствия этого действия вызывают нежелательный результат, то оно будет воспроизводиться все реже и реже.

В начале века в Германии была известна лошадь по имени Умный Ганс. Ударами копыт она считала, складывала из букв слова, извлекала квадратные корни. Ее хозяин полагал, что он обучил ее думать. Однако, проведенное исследование поведения животного показало, что лошадь отвечала на основе подкрепления, которым был поворот головы хозяина, усиленный широкополой шляпой, когда он считал, что число ударов копыт достаточно. В тех случаях, когда предлагались вопросы, на которые никто из присутствующих, и хозяин в том числе, не знали ответа, удары копыт были неопределенными.

Другой тип оперантного обучения был описан Б. Ф. Скиннером [8Ктпег, 1969]. Он показал, что поведение у человека и животных может формироваться не только случайным образом, но и целенаправленно, постепенно за счет подкрепляющих факторов. Такой тип обучения был назван формированием поведения путем последовательных приближений. В одном из описанных им экспериментов, животные с большей вероятностью нажимали на педаль, находящуюся в клетке, если каждое нажатие сопровождалось появлением кусочка пищи. Сигналом к подобной реакции животного был вид педали. Если педаль убиралась, животное не двигало лапой, повторяя это действие. Подкрепление (кусочек пищи) усиливало связь между нейрональными кругами, включенными в процесс восприятия (вид педали) и, нейрональными кругами, ответственными за движение (например, нажатие на педаль).

С помощью этой модели можно объяснить очень быстрое обучение ребенка произнесению первых слов (но не всего языка в целом) по механизму, описанному ранее. Известно, что в первые месяцы жизни дети произносят более 80 звуков, что может соответствовать звуком всех языков мира. Ребенок, перебирая различные звукосочетания, случайно говорит что-то похожее на: «Мо-мо». Радостная мама тут же подкрепляет эти звуки поцелуем, демонстрируя всем, что ее ребенок начал говорить слово «мама». Однако через некоторое время родительские восторги пойдут на убыль, тогда как более близкое и отчетливое произнесение вновь вызовет бурю восторгов. Так, методом последовательного приближения ребенок будет набирать свои первые слова.

Описаны требования, предъявляемые к подкреплению при формировании определенного поведения. Подкрепление тем успешнее, чем более оно приближено к действию. Чем дальше оно отстоит от поведения, тем медленнее формируется поведение. Скорость выработки действия определяется также величиной подкрепления.

Желательно, чтобы подкрепление не было слишком большим или сильным. Например, в процессе обучения животного это может быть маленький кусочек пищи, а не полная миска; при обучении ребенка или взрослого - небольшой подарок. Сытое животное перестанет обучаться. Согласно русской пословице: «Сытое брюхо к учению глухо». Если ребенку предложен большой подарок, то следующий за ним маленький вызовет лишь угашение реакции, а не ее усиление.

При выработке поведения играет роль и очень большое подкрепление. Его влияние часто наблюдается у азартных игроков, которые, получив значительный выигрыш, не могут прекратить игру даже при постоянных

проигрышах в дальнейшем. Именно поэтому, завлекая игроков в игорных домах, им сначала позволяют выиграть, а потом отыгрывают все, что у них есть. На этом эффекте работают широко распространенные на улицах «наперсточники» и другие мошенники. Случайное большое подкрепление может вызвать продолжительную стойкую реакцию у человека и животного. По этому механизму формируются суеверия.

Кроме уже описанных видов подкрепления выделяют вариативное. Его действие ограничено следующими условиями. Вырабатывается определенное поведение, связанное с тем или иным подкреплением. Затем подкрепление убирается и поведение ослабевает. Случайное подкрепление этого поведения вызывает резкое усиление угасшей реакции. Чем реже такого рода подкрепление, тем дольше держится восстановленная реакция. На этом механизме основано стойкое поддержание аддиктивного (зависимого) поведения, когда одна сигарета, одна рюмка, одна ссора усиливают никотиновую, алкогольную зависимость или снятие стресса за счет выплескивания эмоции на другого человека путем провокации скандала [Прайор, 1995].

Эффективность формирования поведения путем последовательных приближений зависит не только от характера подкрепления, но и от других условий. Одним из них является поэтапность, последовательность приближения к окончательному поведению. Весь процесс выработки поведения делится на определенные отрезки, в течение которых добиваются конкретного действия. Это действие должно быть таким, что бы обучаемый человек или животное могли реально выполнить это задание и, следовательно, получить подкрепление.

Например, желая выработать у ребенка умение красиво писать или качественно делать любую другую работу, родитель не может требовать сразу же очень хорошего ее выполнения. Сначала ребенка хвалят за то, что он просто написал палочки, затем - за то, что некоторые из них написаны ровно, затем - что большая часть написана ровно и т.д. Требование сразу же выполнить работу качественно может привести к тому, что у ребенка вовсе отпадет желание ее выполнять. Точно также, желая поменять поведение супруга, второй член семьи может постепенно наращивать свои требования, а не ставить ультиматум. Невыполнение этого условия часто является причиной неудач воспитания детей и попыток супругов переделать друг друга.

Другим условием формирования поведения путем последовательных приближений является то, что вырабатывать его можно только по одному, а не по нескольким критериям одновременно. Например, при обучении

ребенка качественно читать, нельзя сразу же требовать понимания прочитанного и быстрого чтения; от молодой жены нельзя одновременно требовать готовить обед и готовить его вкусно. Сначала, например, можно выработать желание готовить обед, а затем вырабатывать навык готовить вкусно.

Прежде чем увеличить или повышать критерий, нужно пользоваться подкреплением текущего уровня, то есть подкреплять любые исполнения данного действия. Вводя новый критерий лучше временно ослабить предыдущий. Например, желая научить ребенка читать быстро, на первом этапе можно пожертвовать качеством чтения и при наборе им определенной скорости, начать вновь следить и за качеством понимания текста.

Еще одним условием является то, что заканчивать ежедневный курс обучения следует всегда на фоне поощрения. Если это условие нарушено и ребенку сегодня предъявляется требование, за которое он не получает поощрение (в виде похвалы или поглаживания), то он будет воспринимать это как наказание. Часто именно из-за этого дети, учащиеся хорошо и не получая никакой оценки от своих родителей, начинают учиться плохо, поскольку только в этом случае взрослые начинают интересоваться успехами ребенка [Прайор, 1995].

Разрабатывая представления об оперантном обучении, Б. Ф. Скиннер пришел к выводу, что общество в процессе воспитания подрастающего поколения должно не столько заботится о подавлении социально неадекватного поведения (наказание), сколько о выработке социально одобряемого поведения у будущих граждан.

В настоящее время обнаружен нейрофизиологический механизм, контролирующий процесс подкрепления.

Участие системы подкрепления в формировании аддикции

Аддиктивное поведение формируется на основе оперантного обусловливания и зиждется на наличии у человека системы подкрепления, активация которой увеличивает вероятность повторения действия, предшествующего ее активации. Начало изучения этой системы связано со случайным открытием «центра удовольствия».

В 1954 г. Д. Олдс занимался исследованием влияний электрической стимуляции ретикулярной формации среднего мозга на процесс обучения. Для этой цели была разработана экспериментальная ситуация, в которой крысы, забегавшие в определенный угол клетки, получали электрическую

стимуляцию ретикулярной формации. Оказалось, что после каждого пребывания в этой части клетки (то есть после каждой стимуляции) крысы все реже и реже попадали в нее вновь. Это свидетельствовало о том, что такое электрическое раздражение ретикулярной формации среднего мозга было неприятно, и животное предпочитало ее избегать.

Однако, одна из крыс вела себя отличным образом и с каждой стимуляцией оставалась в этой части клетки все дольше, попадая туда все чаще. Возникло предположение, что введенный электрод был фиксирован не в ретикулярной формации среднего мозга, а где-то в области гипоталамуса, что и привело к изменению реакции животного. К сожалению, его мозг был позднее утерян и точного ответа о причинах измененного поведения нет.

Позднее Д. Олдс, стремясь найти те структуры, раздражение которых влечет повторную стимуляцию, продолжил исследование. Группе крыс имплантировали электроды, соединив их с педалью таким образом, что случайно нажимая на педаль, животное замыкало электрическую цепь, раздражающую ее мозг. Подобная экспериментальная ситуация стала называться самостимуляцией. Электроды вживлялись в разные участки мозга и выявлялись те, раздражение которых вело ко все более частым и длительным нажатиям на педаль.

Отдельные животные, случайно нажав на педаль, в дальнейшем делали это сотни раз в течение часа. Очевидно, что самораздражение в этом случае имело подкрепляющее значение, то есть усиливало поведение, предшествующее раздражению (нажатию на педаль). Это было подтверждено дальнейшими экспериментами, в которых выявлены случаи, когда число самостимуляций превышало 1000 раз в час.

Сейчас выявлен целый ряд структур, имеющих подобное подкрепляющее значение. К ним относятся обонятельные луковицы, префронтальная кора, прилежащее ядро, хвостатое ядро, скорлупа, некоторые таламические ядра, ретикулярная формация среднего мозга, черная субстанция, голубое пятно [ОШ, РоЬез, 1981]. Однако, наибольший подкрепляющий эффект отмечен при помещении электродов в медиальный переднемозговой пучок. Его волокна идут от среднего мозга через латеральный гипоталамус в направлении базального переднего мозга. Среди его аксонов есть дофаминергические, норадренергические и серотони-нергические, причем доказано особое участие дофаминергических нейронов в процессе подкрепления.

123 4 5 6

Не нашли, что искали? Воспользуйтесь поиском по сайту: