Многоликий дофамин (#61)

© Austin Lee, 2022
© Austin Lee, 2022

Дофамин — наверное самый распиаренный из всех нейромедиаторов нашего мозга и многим кажется, что в общих чертах мы знаем зачем он нужен, так что иногда даже в бытовом контексте мы вспоминаем его добрым или недобрым словом. Обычно это происходит в разговорах об аддиктивном поведении, то есть зависимостях как позитивных, так и не очень. Еще в массовой культуре дофамин часто связывают с удовольствием или удовлетворением.

Но что на самом деле известно науке о дофамине и нашей системе вознаграждения (reward system), которая на нем построена (между прочим не только на нем)? Мои личные представления на момент написания прошлого письма были довольно скудными. Но закопавшись поглубже в тему, я узнал много всего нового и как будто даже пересмотрел свой упрощенный взгляд на эту систему.

В этом письме я попробую обобщить строго научный взгляд на дофамин и поделюсь выводами, которые я для себя могу сделать на основе этой новой информации. Начнем с роли, которую дофамин играет в нашем мозге: на нем работают механизмы мотивации, обучения, он задействован в процессах, связанных с памятью, эмоциями и движением. Так, болезнь Паркинсона связана с деградацией дофаминовых сетей мозга. Дальше я рассмотрю только две ключевых «задачи» дофамина: мотивацию и обучение.

Уже лет 30 ученые знают, что дофамин и система вознаграждения (reward system), построенная на нем, отвечает как за мотивацию к действию, так и за обучение в широком смысле слова, то есть закрепление определенного поведения. В обоих случаях задействованы нейроны, которые используют нейромедиатор дофамин, однако как именно эти две достаточно разные задачи уживаются друг с другом в одной системе — до конца не ясно до сих пор1. По крайней мере, мне не удалось найти какой-то стройной убедительной модели.

Раньше считалось, что мотивация — это следствие медленных изменений тонического уровня дофамина (tonic dopamine), а обучение происходит за счет резких фазовых всплесков (phasic dopamine). Однако это к этой версии есть много вопросов уже несколько лет1.

Еще с в 1990-х ученые обратили внимание, что принцип, которому подчиняются фазовые всплески дофамина очень хорошо описываются концепцией ошибки ожидания (prediction error), то есть разницей между прогнозом и полученным в реальности результатом. В случае reward system — это ошибка ожидания вознаграждения (reward prediction error, RPE):

Together, these results suggest that dopamine neurons signal the difference between the reward an animal expects to receive and the reward it actually receives. When reward is greater than expected, dopamine neurons fire; when reward is the same as expected, there is no response; and when reward is less than expected, activity is suppressed.2

На этом механизме и построено обучение: если разница между ожиданием и реальностью высока, то закрепляются соответствующие изменения в поведении. Если же разницы особо нет, то поведение не меняется. В случае, если ошибка отрицательная (ожидания не оправдались), закрепляется избегание соответствующего поведения, а если ошибка положительная (полученная награда превзошла ожидания), то наоборот закрепляется поведение, которое к этой ситуации привело. Важно, что нам должна быть понятна причинно-следственная связь между поведением и полученной наградой, чтобы это механизм сработал.

Наградой в этом случае могут быть довольно разные позитивные состояния (от удовольствия от еды до удовлетворения от решения задачи) и события, которые в том или ином виде приносят нам позитивные эмоции (социальное одобрение, хорошие оценки, монетарные вознаграждения). Дофаминовым сетям по большому счету все равно.

Ниже показана схема3 из прошлого письма, которая объясняет этот механизм лучше всяких слов. Здесь важно, что когда поведение уже закрепилось, всплеск дофамина происходит именно в момент его ожидания, а не собственно при получении награды. И наоборот, когда награда достается нам неожиданно — всплеск дофамина маркирует именно это событие.

Всплески дофамина на разных этапах закрепления поведения<br>© Marielena Sosa &amp; Lisa M. Giocomo
Всплески дофамина на разных этапах закрепления поведения
© Marielena Sosa & Lisa M. Giocomo

Интерпретация всплесков дофамина как механизма, который работает на RPE — похожа на правду. Но надо понимать, что RPE — это просто удачная абстракция, модель для описания наблюдаемых феноменов. Как именно это устроено с точки зрения нейронов, как они «считают» разницу между ожиданием и реальностью — до конца не извествено.

Мотивационная же роль дофамина тоже в целом соответствует этой картине. Резкий всплеск совпадает1 с изменениям в поведении, инициации поведения, которое до этого приводило к получению награды.

Если обучение определенному поведению и мотивация работают по этому принципу, то мы можем довольно осмысленно влиять на эти процессы, помещая себя в среду богатую на награды в широком смысле слова, то есть влияя на позитивное подкрепление. На мой взгляд геймификация — например, как в компьютерных играх — это один из удачных примеров такой среды. Социальное одобрение от преподавателей и студентов, которое мы получаем в грамотно спроектированной образовательной среде — тоже удачный пример такой среды.

Так, для меня достаточно самой идеи о том, что несколько сотен человек подписаны на эту рассылку, чтобы быть мотивированным не забрасывать исследования. Чего не скажешь об исследовании только для себя (то есть «в стол»), которым я занимался до этого. То есть, когда нам не очевидна связь, между наградой и поведением или когда награда отсутствуют или очень сильно отложена во времени, то механизмы системы вознаграждения не работают. Именно поэтому большие проекты так часто рекомендуют делить на маленькие этапы, прогресс в которых будет заметен быстро.

В качестве заключения, хочу порекомендовать отличную лекцию основателя Behance Скота Бельски, про то как не терять мотивацию на больших творческих проектах, которая очень перекликается со всем, что я описал выше.


  1. Berke J. D. What Does Dopamine Mean? // Nature Neuroscience. 2018. Vol. 21, No. 6:

    Motivation ‘looks forward’: it uses predictions of future reward (values) to appropriately energize current behavior. By contrast, learning ‘looks backwards’ at states and actions in the recent past and updates their values. These are complementary phases of a cycle: the updated values may be used in subsequent decision-making if those states are re-encountered, then updated again, and so forth. But which phase of the cycle is dopamine involved in, using values to make decisions (performance) or updating values (learning)?

    Yet this ‘phasic dopamine = learning; tonic dopamine = motivation’ view faces many problems. First, there is no direct evidence that tonic dopamine cell firing normally varies over slow time scales. Tonic firing rates do not change with changing motivation…

    Furthermore, the fact that microdialysis measures dopamine levels slowly does not mean that dopamine levels actually change slowly. <…> …Dopamine fluctuated as fast as we sampled it: we saw no evidence for an inherently slow dopamine signal.

    Fast dopamine fluctuations do not simply mirror motivation, they also immediately drive motivated behavior. <…> Since dopamine is changing quickly and these dopamine changes affect motivation quickly, the motivational functions of dopamine are better described as fast (phasic), not slow (tonic).

     ↩︎
  2. Watabe-Uchida M., Eshel N., Uchida N. Neural Circuitry of Reward Prediction Error // Annual Review of Neuroscience. 2017. Vol. 40, No. 1. ↩︎

  3. Sosa M., Giocomo L. M. Navigating for Reward // Nature Reviews Neuroscience. 2021. Vol. 22, No. 8. ↩︎

#когнитивные науки