Logo
Cover

Яндекс опубликовал набор данных беспилотных автомобилей для исследований в области машинного обучения и автономного транспорта. Это самый большой в мире массив данных такого типа в открытом доступе, отмечают в компании: он содержит более 1600 часов движения, разбитых на 600 000 размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, в снег и в дождь.

Все данные обезличены, подчеркивают в Яндексе. Датасет по беспилотным автомобилям содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и т. д.), но не использует видео, где были бы видны номера машин или лица прохожих.

Датасет опубликовали для конкурса Shifts Challenge, который Яндекс проведет в рамках международной конференции NeurIPS 2021 совместно с учеными из Оксфорда и Кембриджа. Задача конкурса — привлечь внимание к проблеме «сдвига данных» в машинном обучении.

Старший исследователь Yandex Research Андрей Малинин объяснил, в чем заключается эта проблема: «Если вы привыкли водить машину в небольшом городе, то в Москве вы не сразу адаптируетесь к трафику и, скорее всего, поначалу будете более осторожны на дороге. Это и есть сдвиг данных. Вы можете оценить его масштаб и скорректировать свои действия. Машинно обученные модели должны уметь делать то же самое — оценивать величину сдвига и эффективно действовать в новых условиях. От того, насколько хорошо алгоритм может работать при сдвиге данных, будет зависеть широта его применения».

Сдвиг данных возможен везде, где модели машинного обучения сталкиваются с неопределенностью — незнакомыми ситуациями и неизвестными данными. Для Shifts Challenge Яндекс выбрал три области: предсказание траектории движения транспорта и пешеходов на дороге, прогнозирование погоды и машинный перевод текстов. Участники конкурса должны будут создать устойчивые к сдвигу модели. Например, такую модель машинного перевода, которая обучалась на художественной литературе, но может качественно переводить и твиты, и ролики на YouTube.

Конкурс даст ученым доступ к уникальным данным, позволяющим оценить качество работы моделей машинного обучения в реальном мире. Для конкурса исследователи Яндекса вместе с командами Яндекс.Погоды, Яндекс.Переводчика и беспилотных технологий предоставили данные сервисов, решающих практические задачи и часто сталкивающихся со сдвигом. Такие разнородные данные помогут ускорить разработку алгоритмов, способных адаптироваться к новым условиям быстрее и лучше сегодняшних.

Исследователи должны будут обучить алгоритмы на предоставленных данных, а затем проверить качество их работы в условиях сдвига. Конкурс Shifts Challenge завершится 30 ноября, когда огласят итоги соревнования. Приз за первое место составит $5 000, за второе — $ 3 000, а за третье — $1 000.

Полную версию материала см. на сайте CDO2Day.