Вентральная область покрышки (ПОВ) важна для мотивации и системы вознаграждения мозга. Это небольшое скопление нейронов выступает основным источником дофамина — нейромодулятора, который отправляется в другие зоны мозга, чтобы вызвать реакцию на приятный стимул. Изначально считалось, что ПОВ — это просто «центр вознаграждения». Однако в 1990-х годах учёные выяснили: эта область кодирует не само вознаграждение, а его предвкушение.
Эксперименты на животных показали, что если за световым сигналом всегда следовало вознаграждение, то со временем ПОВ начинала выделять дофамин не в момент получения награды, а сразу при появлении сигнала. Это «обучение с подкреплением» требует минимального контроля и играет ключевую роль в обучении человека. На этом же принципе основаны многие алгоритмы искусственного интеллекта, которые улучшают свою работу через тренировки.
В новом исследовании учёные выяснили, что кодирование информации в ПОВ ещё сложнее, чем предполагалось ранее. Вместо того чтобы просто предсказывать общую сумму будущих вознаграждений, она прогнозирует их временную динамику. Это означает, что каждое ожидаемое вознаграждение представляется отдельно, с указанием точного момента, когда оно должно произойти.
Известно, что нейроны этой области предпочитают ближайшие вознаграждения. Однако исследование показало, что разные нейроны работают в разных временных масштабах: одни фокусируются на награде через секунды, другие — через минуты, третьи — на более далекой перспективе. Именно это разнообразие позволяет точно кодировать время вознаграждения. Такая детализация даёт системе обучения высокую гибкость, позволяя ей добиваться как немедленных, так и отложенных целей.
Эти открытия — результат сотрудничества нейронауки и искусственного интеллекта. Исследователи разработали алгоритм, учитывающий время обработки вознаграждения, и применили его к данным активности вентральной области у животных. Результаты идеально совпали с эмпирическими выводами.