Hitech logo

Идеи

Ученые обнаружили в мозге встроенный таймер удовольствия

TODO:
Екатерина Шемякинская10 июня, 17:21

Вентральная область покрышки, ключевой центр вознаграждения мозга, оказалась сложнее, чем думали ученые. Новое исследование показало, что она не просто предсказывает вознаграждение, но и точно определяет момент его получения. Разные нейроны этой области специализируются на разных временных масштабах: одни предсказывают награду, ожидаемую через секунды, другие — через минуты, а третьи — в более отдаленном будущем. Это позволяет расставлять приоритеты, достигая как неотложных, так и долгосрочных целей.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Вентральная область покрышки (ПОВ) важна для мотивации и системы вознаграждения мозга. Это небольшое скопление нейронов выступает основным источником дофамина — нейромодулятора, который отправляется в другие зоны мозга, чтобы вызвать реакцию на приятный стимул. Изначально считалось, что ПОВ — это просто «центр вознаграждения». Однако в 1990-х годах учёные выяснили: эта область кодирует не само вознаграждение, а его предвкушение.

Эксперименты на животных показали, что если за световым сигналом всегда следовало вознаграждение, то со временем ПОВ начинала выделять дофамин не в момент получения награды, а сразу при появлении сигнала. Это «обучение с подкреплением» требует минимального контроля и играет ключевую роль в обучении человека. На этом же принципе основаны многие алгоритмы искусственного интеллекта, которые улучшают свою работу через тренировки.

В новом исследовании учёные выяснили, что кодирование информации в ПОВ ещё сложнее, чем предполагалось ранее. Вместо того чтобы просто предсказывать общую сумму будущих вознаграждений, она прогнозирует их временную динамику. Это означает, что каждое ожидаемое вознаграждение представляется отдельно, с указанием точного момента, когда оно должно произойти.

Известно, что нейроны этой области предпочитают ближайшие вознаграждения. Однако исследование показало, что разные нейроны работают в разных временных масштабах: одни фокусируются на награде через секунды, другие — через минуты, третьи — на более далекой перспективе. Именно это разнообразие позволяет точно кодировать время вознаграждения. Такая детализация даёт системе обучения высокую гибкость, позволяя ей добиваться как немедленных, так и отложенных целей.

Эти открытия — результат сотрудничества нейронауки и искусственного интеллекта. Исследователи разработали алгоритм, учитывающий время обработки вознаграждения, и применили его к данным активности вентральной области у животных. Результаты идеально совпали с эмпирическими выводами.