Для обучения алгоритма управления светофорами на городских перекрестках инженер обычно выбирает один из двух подходов. Первый заключается в обучении отдельного алгоритма для каждого перекрестка с использованием исключительно данных этого участка. Второй предполагает тренировку единого алгоритма на сведениях со всех перекрестков с последующим его применением ко всем улицам. Однако у каждого из этих подходов есть недостатки. Обучение индивидуальных алгоритмов для каждого перекрестка — трудоемкий процесс, требующий огромных вычислительных ресурсов и объемов информации. В то же время универсальный алгоритм на некоторых перекрестках работает хуже.
Ученые стремились найти решение, сочетающее достоинства обоих подходов. Команда выбирала подмножество задач и обучала один алгоритм для каждой задачи независимо. При этом задачи отбирались стратегически, для максимального повышения общей производительности алгоритма. Исследователи использовали распространенную в машинном обучении технику нулевого переноса, при которой предварительно обученная модель применяется к новой задаче без дополнительной тренировки.
Практика показала, что такой подход позволяет достичь впечатляющих результатов на новых, сходных задачах.
Для определения оптимального набора задач исследователи разработали алгоритм Model-Based Transfer Learning (MBTL). MBTL состоит из двух модулей. Первый моделирует производительность каждого алгоритма при обучении на отдельной задаче. Второй оценивает, насколько сильно снизится производительность алгоритма при его применении к другой проблеме.
Моделирование «обобщающей способности» позволяет MBTL оценить потенциальную выгоду от обучения на новой задаче. MBTL действует последовательно, выбирая сначала задачу, которая обеспечивает наибольший прирост производительности. Затем алгоритм отбирает дополнительные задачи, которые вносят вклад в дальнейшее улучшение общей производительности. Поскольку MBTL фокусируется исключительно на самых перспективных кейсах, обучение становится более результативным.
Ученые проверили новый метод на разных задачах, например, на управлении светофорами или выборе лучшего маршрута. Оказалось, что алгоритм работает в 5-50 раз быстрее и лучше, чем другие способы.
ИИ мог научиться решать задачи, используя гораздо меньше информации. Например, если обычным алгоритм нуждается в тренировке на 100 задачах, то новый может достичь того же результата, обучившись на двух.
С MBTL даже небольшое увеличение времени тренировок приводит к улучшению результатов. В дальнейшем исследователи планируют разработать алгоритмы MBTL, способные справляться с более сложными вопросами.