В ходе исследований сотрудник компании Притхви Раджасекаран сосредоточился на двух задачах: создание качественного дизайна интерфейса и разработка полноценных приложений в автономном режиме. Ранее методы, основанные на простых итерациях и инструментальных подходах, показывали рост производительности, но достигали своего предела при сложных длительных задачах.
Кроме того, при разработке агентов исследователи сталкивались с двумя проблемами. Первая — «тревожность из-за контекста». ИИ спешил завершить задачу по мере заполнения контекстного окна, что снижало качество результата. Вторая — «предвзятость самооценки»: агенты склонны переоценивать свою работу, преждевременно объявляя проект завершенным или пропуская недочеты.
Решением стала многоагентная система, вдохновленная генеративно-состязательными нейросетями. Ее архитектура построена на трех агентах — планировщике, генераторе и оценщике. Планировщик превращает простой запрос пользователя в полную спецификацию продукта, генератор пошагово реализует функции и создаёт интерфейсы и код, а оценщик проверяет их на корректность, удобство использования и соответствие критериям качества дизайна, оригинальности, мастерства и функциональности, включая тестирование интерфейса и API с помощью Playwright. Такое разделение ролей позволяет преодолевать проблемы субъективной оценки и чрезмерно положительных суждений генератора о собственной работе.
В ходе экспериментов Claude создавал страницы с целостным визуальным оформлением, продуманной типографикой, согласованной цветовой гаммой и уникальными элементами вместо привычных однотипных шаблонов. За 5–15 итераций (до 4 часов работы) результаты заметно улучшились — по словам автора статьи, модель совершала «творческие скачки».
Так, первоначальная версия веб-сайта для художественного музея представляла собой обычный лэндинг с базовым макетом. После нескольких циклов обратной связи от агента-оценщика Claude трансформировал сайт в интерактивное 3D-пространство с виртуальными комнатами, где произведения искусства размещались на стенах, а навигация между залами осуществлялась через дверные проемы вместо стандартной прокрутки.
Подход был масштабирован для создания полноценных приложений. Например, в одном из экспериментов агент создал 2D ретро-игру. После нескольких итераций интерфейс стал удобным, а игровой процесс — интерактивным. В другом проекте Claude разрабатывал цифровую звуковую рабочую станцию (DAW), где генератор создавал редактор мелодий, ударных и микшера, а оценщик выявлял ошибки и недочёты на каждом этапе. Полный цикл создания DAW занял около четырех часов автономной работы модели и обошелся в $124.
Результаты показали, что с помощью такой системы можно создавать сложные программы и интерфейсы практически автономно, с высокой степенью контроля качества и творческой вариативностью. При этом пространство для улучшений остаётся широким: будущие версии моделей обещают ещё большую автономность, возможность решать сложные задачи и создавать оригинальные решения в разработке программного обеспечения с ИИ.

