Неожиданный подход поможет ИИ действовать в незнакомых ситуациях эффективнее

искусственный интеллект

Георгий Голованов29 января, 12:57

Георгий Голованов29 января, 12:57

Робот, ловко выполнявший свои задачи на фабрике, может не справиться с ними, когда попадет к заказчику и приступит к работе в незнакомой среде. Инженеры-робототехники решают эту проблему, создавая максимально приближенные к реальности условия обучения. Однако команда специалистов из США обнаружила, что иногда обучение в совсем других обстоятельствах дает лучшие результаты.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В некоторых ситуациях обучение интеллектуальных агентов в среде с меньшей неопределенностью, или шумом приводит к большей производительности робота, чем в случае обучения в зашумленной среде, напоминающей реальные условия. Разработчики назвали этот неожиданный феномен эффектом лабораторного обучения.

«Если ИИ — это мозг робота, то RPA — его руки». Что умеют программные роботы

«Если мы учимся играть в теннис в закрытом помещении, где нет помех, нам проще научиться хорошо выполнять различные подачи. Затем, если мы выйдем в среду с помехами, например, на ветреный теннисный корт, вероятность успешной игры будет выше, чем если бы мы начали учиться под ветром», — пояснила Серена Боно, инженер из Массачусетского технологического института, главный автор статьи с описанием открытия.

Команда Боно исследовала этот феномен, тренируя ИИ методом обучения с подкреплением играть в видеоигры Atari. Поскольку результаты обучения их не удовлетворяли, они начали экспериментировать и вносить изменения в один из элементов этого метода для повышения эффекта неожиданности: добавляли определенное количество помех в переходную функцию, которая задает вероятность смены агентом состояния на основе выбранных действий. И сами были удивлены, когда обнаружили постоянно возникающий эффект лабораторного обучения.

Под действием помех агент вел себя менее эффективно, рассказывает MIT News. Но когда агент, предварительно обученный в защищенной от помех среде попадал в среду с помехами, он начинал показывать лучший результат по сравнению с агентом, тренировавшимся в условиях шумов.

Исследователи рассчитывают, что открытие приведет к разработке новых, более совершенных методов обучения ИИ. «Это совершенно новая концепция. Вместо того чтобы пытаться согласовать среду обучения и среду тестирования, мы можем конструировать искусственные условия, в которых агент ИИ будет обучаться еще лучше», — добавил Спандан Мадан из Гарвардского университета.

Прошлогоднее исследование, проведенное стартапом Anthropic, выявило серьезные недостатки в текущих методах обучения и проверки безопасности ИИ. Оказалось, что если модель ИИ научить вредному поведению, ее тяжело избавить от него: искусственный разум сохранит свои «вредные привычки», но будет обманывать проверки безопасности.

Также по теме

Идеи

Термоядерная реакция впервые выдала больше энергии, чем поглотила

Идеи

Двуногий робот Кэсси научился подниматься по ступеням всплепую

Идеи

Разработан прототип литиевой батареи для экстремально низких температур

Идеи

Прототип умного окна генерирует энергию и меняет прозрачность

Новости СМИ2