Hitech logo

искусственный интеллект

Неожиданный подход поможет ИИ действовать в незнакомых ситуациях эффективнее

TODO:
Георгий Голованов29 января, 12:57

Робот, ловко выполнявший свои задачи на фабрике, может не справиться с ними, когда попадет к заказчику и приступит к работе в незнакомой среде. Инженеры-робототехники решают эту проблему, создавая максимально приближенные к реальности условия обучения. Однако команда специалистов из США обнаружила, что иногда обучение в совсем других обстоятельствах дает лучшие результаты.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В некоторых ситуациях обучение интеллектуальных агентов в среде с меньшей неопределенностью, или шумом приводит к большей производительности робота, чем в случае обучения в зашумленной среде, напоминающей реальные условия. Разработчики назвали этот неожиданный феномен эффектом лабораторного обучения.

«Если мы учимся играть в теннис в закрытом помещении, где нет помех, нам проще научиться хорошо выполнять различные подачи. Затем, если мы выйдем в среду с помехами, например, на ветреный теннисный корт, вероятность успешной игры будет выше, чем если бы мы начали учиться под ветром», — пояснила Серена Боно, инженер из Массачусетского технологического института, главный автор статьи с описанием открытия.

Команда Боно исследовала этот феномен, тренируя ИИ методом обучения с подкреплением играть в видеоигры Atari. Поскольку результаты обучения их не удовлетворяли, они начали экспериментировать и вносить изменения в один из элементов этого метода для повышения эффекта неожиданности: добавляли определенное количество помех в переходную функцию, которая задает вероятность смены агентом состояния на основе выбранных действий. И сами были удивлены, когда обнаружили постоянно возникающий эффект лабораторного обучения.

Под действием помех агент вел себя менее эффективно, рассказывает MIT News. Но когда агент, предварительно обученный в защищенной от помех среде попадал в среду с помехами, он начинал показывать лучший результат по сравнению с агентом, тренировавшимся в условиях шумов.

Исследователи рассчитывают, что открытие приведет к разработке новых, более совершенных методов обучения ИИ. «Это совершенно новая концепция. Вместо того чтобы пытаться согласовать среду обучения и среду тестирования, мы можем конструировать искусственные условия, в которых агент ИИ будет обучаться еще лучше», — добавил Спандан Мадан из Гарвардского университета.

Прошлогоднее исследование, проведенное стартапом Anthropic, выявило серьезные недостатки в текущих методах обучения и проверки безопасности ИИ. Оказалось, что если модель ИИ научить вредному поведению, ее тяжело избавить от него: искусственный разум сохранит свои «вредные привычки», но будет обманывать проверки безопасности.