Роботы-повара десятилетиями фигурировали в научной фантастике. Несмотря на обилие роботов в нашей реальности, приготовление пищи для них остается сложной задачей. Несколько коммерческих компаний построили прототипы роботов-поваров, но ни один из них не появился в свободной продаже, и они сильно отстают от своих коллег-людей с точки зрения навыков.
Повара-люди изучают новые рецепты путем наблюдения, например, с помощью видео на YouTube, но программирование робота для приготовления еды требует больших финансовых затрат и времени. Исследователи заинтересовались, сможет ли робот-повар учиться так же постепенно, как и люди, — определяя ингредиенты и то, как они сочетаются друг с другом в блюде.
Ученые разработали восемь простых рецептов салатов и засняли, как люди-повара их готовят. Затем исследователи использовали общедоступную нейронную сеть для обучения своего робота-повара. Нейросеть уже была запрограммирована на определение различных объектов, включая фрукты и овощи, используемые в восьми рецептах салатов, — брокколи, морковь, яблоко, банан и апельсин.
С помощью методов компьютерного зрения робот проанализировал каждый кадр видео и идентифицировал различные объекты и особенности — нож, ингредиенты, руки, кисти и лицо человека-демонстратора. Распознавая ингредиенты и действия человека-повара, робот определял, какой из рецептов готовился. Так робот заключил, что если человек-демонстратор держит нож в одной руке, а морковь в другой, морковь будет нарезана.
Из 16 просмотренных видео робот распознал правильный рецепт в 93% случаев, хотя обнаружил только 83% действий человека-повара. Робот также понял, что небольшие изменения в рецепте, например, приготовление двойной порции или ошибка человека с добавлением ингредиента, были вариациями, а не новым рецептом. Робот правильно распознал демонстрацию нового, девятого салата, добавил его в свою кулинарную книгу и приготовил.
Однако робот не смог бы учиться по видео с рецептами из социальных сетей с динамичным монтажом и визуальными эффектами — за ними слишком сложно следить. Роботу было бы трудно идентифицировать морковь, если бы повар обхватил ее рукой, а не поднял бы перед камерой. Но ученые говорят, что по мере того, как роботы-повара будут лучше и быстрее определять ингредиенты в видеороликах о еде, они смогут использовать, например, YouTube для изучения множества рецептов.