По словам ведущего научного сотрудника Facebook Кристен Грауман, существующие системы компьютерного зрения не связаны с перспективами от первого и третьего лица так, как видят люди. По этой причине алгоритмы не способны осознать происходящее в повседневной жизни. Например, если закрепить систему компьютерного зрения на американских горках, она не поймет, на что она смотрит, даже если она обучена на сотне тысяч изображений или видео с аналогичными горками, сообщает VentureBeat.
«Чтобы системы ИИ могли взаимодействовать с миром так, как мы, область ИИ должна развиться до совершенно новой парадигмы восприятия от первого лица. Это означает, что мы должны научить ИИ понимать повседневную деятельность глазами человека в контексте движения, взаимодействия и мультисенсорных наблюдений в реальном времени», — объяснила Грауман.
Она также добавила, что в долгосрочной перспективе проект Ego4D позволит алгоритмам помогать человеку теми способами, которые на данный момент невозможны.
В особенности новый подход пригодится при разработке антропоморфных роботов. Последние смогут воспроизвести действия человека в рутинных задачах, не уступая в скорости и точности, и будут осознавать, какую работу они выполняют.
Консорциум Facebook, в который входят учреждения из девяти стран, уже собрали более 2,2 тыс. часов видео от первого лица. Эти ролики были сняты при участии более чем 700 человек из 73 городов — пользователи демонстрировали свои повседневные дела, снимая их с налобных камер. В качестве дополнения специалисты из Facebook Reality Labs также использовали умные очки Vuzix Blade для сбора дополнительных 400 часов видеоданных в постановочной среде исследовательских лабораторий.
Участники записывали для Facebook восьмиминутные клипы о покупке продуктов, приготовлении пищи, разговорах во время игр и участии в групповых мероприятиях с семьей и друзьями. При этом Ego4D фиксировал, когда и как владелец камеры действует в определенной среде, что он делает своими руками и как он общается с другими людьми. Некоторые кадры также были сопряжены с 3D-сканированием, данными о передвижениях и отслеживанием глаз.
Полученные данные Ego4D уже более чем в 20 раз превышают любые источники информации с точки зрения отснятого материала, заявили представители компании. По их словам, ближайший сопоставимый проект состоит из 100 часов видеоматериалов от первого лица, полностью снятых на кухне.
«Мы открыли глаза этим системам искусственного интеллекта не только на кухни в Великобритании и Сицилии, но и на кадры из Саудовской Аравии, Токио, Лос-Анджелеса и Колумбии», — утверждают авторы.
Следующий шаг Facebook — это серия тестов и задач, которые компания предоставит для всех заинтересованных разработчиков. Испытания состоят из пяти пунктов: демонстрации эпизодической памяти, прогнозирования, манипуляций руками и предметами, аудиовизуального дневника и социального взаимодействия. В ходе тестирования алгоритмы должны отвечать на сложные вопросы, интерпретируя, что произошло на записанном фрагменте. Таким образом Facebook хочет вывести совершенную систему, которая в дальнейшем будет интегрирована в реальные продукты и услуги.