Hitech logo

Обучение машин

Нейросеть Udacity создает цифровых лекторов для обучающего видео

TODO:
Георгий Голованов8 июля 2019 г., 09:51

Нейросеть LumièreNet образовательной онлайн-платформы Udacity научилась синтезировать видеолекции любой длины, умело сочетая аудиозапись с соответствующим визуальным рядом.     

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Записывать видео для образовательных платформ вроде Coursera или EdX — занятие хоть и благодарное, но трудоемкое. Профессиональные клипы делают в специально оборудованных студиях и программах для монтажа. Udacity, онлайновая образовательная организация, предлагающая свыше 100 000 курсов, решила радикально упростить процесс с помощью ИИ и автоматически генерировать видеолекции из аудиозаписей, рассказывает VentureBeat.

Метод специалистов Udacity отличается простотой, модульным подходом и полной автоматизацией процесса. Нейросеть анимирует лектора, заставляя фигуру двигаться, шевелить губами и моргать, имитируя поведение живого человека. До сих пор такого никто не делал, говорится в статье с описанием принципов работы нейросети LumièreNet, выложенной на Arxiv.org.

В модели LumièreNet есть компонент оценки позы, который синтезирует изображения фигуры из кадров набора данных, главным образом, путем локализации опорных точек на теле. Второй модуль — двунаправленная рекуррентная долгая краткосрочная память (BLSTM), которая обрабатывает данные в направлении вперед или назад, так что каждый вывод данных отражает предшествующие ему данные. Он отвечает за сопоставление аудиозаписи с визуальными элементами.

В качестве испытания LumièreNet разработчики записали лекцию длительностью около восьми часов. Нейросеть создала «убедительные» клипы с плавными жестами и реалистичным движением волос, но, как отмечают сами создатели, цифровая фигура не обманет внимательного зрителя. Например, виртуальный лектор редко моргает, иногда ненатурально двигает губами, а его руки почему-то не в фокусе.

Разработчики надеются, что добавление новых опорных точек в модель улучшит детализацию, а модульный дизайн нейросети позволит тренировать каждый компонент в отдельности.

Китайский поисковик Sugou оцифровал в прошлом году нескольких телеведущих новостей «Синьхуа». Копия диктора Чжана Чжао не отличалась от оригинала, разве что говорила по-английски. ИИ-ведущие смогут вести программы в реальном времени — им не нужны ни студии, ни гримеры.