Дофамин и привычки (#62)

© Oli Epp, 2018
© Oli Epp, 2018

Обычный вечер после обычного рабочего дня. Вы заканчиваете со встречами и хотите немного отдохнуть. Вы ложитесь на кровать и зависаете на часок в Ютубе или соцсетях. А кто-то включает телевизор и берет из холодильника бутылочку пива. Или идет на вечернюю пробежку. Можно придумать еще множество разных сценариев. Их все объединяет то, что они представляют собой поведение по привычке, действия которые мы делаем автоматически, не прикладывая почти никаких сознательных усилий.

Оказывается система вознаграждения, а именно тот механизм, который я подробно разобрал в прошлом письме, активно участвует12 как раз в действиях по привычке. Для меня это стало открытием, так как про привычки я читал и писал много раз, но не смотрел на них с этой стороны. Как мы знаем, например, из первого письма поведение по привычке иницируется определенным контекстом, или context cue. Термин «контекст» здесь можно трактовать довольно широко: в нашем случае это может быть как определенное состояние (усталость в конце рабочего дня), так и место, и время (вечер дома), а скорее всего все вместе. Именно контекст является стимулом, который запускает в нашей системе вознаграждения всплеск дофамина, кодирующий ожидание вознаграждения («хочется полежать и отдохнуть»). А дальше мы идем и почти на автомате делаем действия, которые исторически приводили к вознаграждению в этом контексте. Скорее всего и в этот раз не будет исключения.

Такой механизма контроля поведения называют model-free или stimulus-driven, потому что он не предполагает использования какой-то сложной модели окружения и принятия решений в соответствии с ней. Он экономит нашему мозгу ресурсы, нам не надо каждый вечер принимать решения заново. Противопоставляют model-free контролю поведения так называемый goal-directed или model-based контроль поведения2. В этом случае мы моделируем различные потенциальные сценарии на основе нашей модели окружающего мира, сравниваем их и принимаем осмысленное решение.

С точки зрения нашего мозга goal-directed контроль поведения — это «дорогое» удовольствие. Именно поэтому повторяющиеся ситуации, при которых раз за разом в результате некоторых осмысленных действий мы получили какой-то положительный результат (который кодировался всплеском дофамина), постепенно закрепляют поведение по привычке (смещая всплеск дофамина с самого результата на его ожидание, как показано в предыдущем письме).

Итак, в случае действия по привычке мы тратим меньше ресурсов — казалось бы это вершина оптимизации, но как вы догадываетесь у этого механизма должна быть и обратная сторона2. И действительно, когда ассоциация стимула и вознаграждения закрепляется, ее бывает довольно сложно разорвать, дальше если поведение уже не приносит положительного результата в моменте или не целесообразно на долгом сроке. Все потому, что оценка «результата» этого поведения происходит в ракурсе моментального вознаграждения (reward prediction error — все-таки довольно примитивный механизм). Здесь не принимаются в расчет какие-то замысловатые причинно-следственные связи. Наша система вознаграждения не взвешивает долгосрочные последствия ежедневной бутылочки пива для вашего здоровья, или последствия для психики от постоянного social comparison после часов, проведенных в соцсетях. Даже если в вашей картине мира достаточно знаний для того, чтобы эти последствия оценить, до тех пор, пока вы не реализуете goal-directed или model-based контроль над поведением — эти знания не особо участвуют в уравнении.

Более того, даже если моментальный результат окажется хуже ожидания, должно пройти как минимум несколько итераций, чтобы поведение по привычке начало трансфомироваться. Например, если этим вечером от обилия шокирующего контента в соцсетях вы получили скорее негатив, чем удовольствие, это почти никак не повляет на привычку отдыхать таким образом. Если такие ситуации будут происходить лишь эпизодически, то привычка вряд ли изменится: ассоциацию сможет разорвать лишь продолжительный негативный результат. Мне кажется, что gambling — идеальная иллюстрация этого механизма: досада от поражения постоянно чередуется с вознаграждением от выигрыша и порвать порочный круг не удается.

Ученые считают, что во многом из-за специфики этого механизма любые зависимости так сложно преодолеть2. Они работают на уровне поведения по привычке (habitual), нежели на уровне осмысленного поведения (goal-directed). Из этого конечно же не следует, что надо пытаться по максимуму реализовывать goal-directed контроль над поведением: это попросту невозможно. Мы постоянно переключаемся между разными механизмами контроля, сами того не осозновая. Скорее из этого следует, что понимая особенности нашей системы вознаграждения и ее связи с поведением по привычке, надо регулярно оценивать собственные привычки и осмысленно относиться к их формированию, потому что в конце концов большую часть жизни мы будем проживать по привычке.


  1. Wood W., Rünger D. Psychology of Habit // Annual Review of Psychology. 2016. Vol. 67, No. 1.

    Habits strengthen through associative and reward-learning mechanisms that capture the slow, incremental nature of habit formation. With each repetition, small changes occur in the cognitive and neural mechanisms associated with procedural memory. Through Hebbian learning, cognitive associations between context cues and a response are strengthened gradually so that people are prepared to repeat performance when the context cues are encountered again…

    The strength of context-response associations is further modulated by the reward following the response. At a neural level, midbrain dopamine systems support this reinforcement process. By signaling reward prediction errors, or the discrepancy between an anticipated and actual reward, a phasic dopamine response acts as a teaching signal for habit learning in the striatum… Specifically, the dopaminergic signal that is triggered by an unexpected change in reward magnitude works retroactively to stamp in associations between the still-active memory traces of the response and the cues in the performance context…

     ↩︎
  2. O’Doherty J. P., Cockburn J., Pauli W. M. Learning, Reward, and Decision Making // Annual Review of Psychology. 2017. Vol. 68, No. 1.

    To increase the possibility of being able to actively attain rewards, many organisms are also equipped with instrumental conditioning, a mechanism that allows them to learn to perform specific yet arbitrary behavioral responses (such as a lever press) in a specific context. In the simplest form of instrumental conditioning, specific stimulus–response patterns are acquired by virtue of the extent to which a particular response gives rise to positive (i.e., the receipt of a reward) or negative (i.e., avoidance of an aversive outcome) reinforcement.

    This strategy provides significant benefits in terms of cognitive efficiency, speed, and accuracy; however, these benefits come at a cost. Critically, the execution of this class of behavior does not involve an anticipation of a particular outcome (Thorndike 1898); thus, behavior can become habitual, making it difficult to flexibly adjust the behavior should outcome valuation suddenly change. Thus, to the organism’s potential detriment, habits may persist even if their outcomes are no longer beneficial. This persistence is suggested to give rise to various forms of addiction (Everitt & Robbins 2016).

    Goal-directed control refers to a class of instrumental behaviors that appear to be motivated by and directed toward a specific outcome. Whereas stimulus-driven control can be thought of as retrospective in that it depends on integrating past experience, goal-directed control may be thought of as prospective in that it leverages a cognitive map of the decision problem to flexibly revalue states and actions…

    Referred to as a reward prediction error (RPE), phasic dopamine activity has been shown to resemble, both in signature and function, a signal used by computational reinforcement learning (RL) algorithms to support learning… This type of learning signal allows an agent to improve its prediction of what to expect from the environment by continually adjusting those predictions toward what actually occurred.

    However, there is a downside to this training interaction. Once behavior is under the control of the habitual system, it may guide the agent toward an unfavorable course of action under circumstances in which environmental contingencies have shifted or the agent’s goals have changed. Alternatively, errors in goal-directed representations may inculcate inappropriate biases into the stimulus-driven system’s learned values…

     ↩︎

#когнитивные науки