Hitech logo

Мнения

Глава Anthropic: на разработку надежной системы контроля ИИ уйдет 5-10 лет

TODO:
Екатерина Шемякинская25 апреля, 10:41

Генеральный директор Anthropic Дарио Амодей предупредил, что искусственный интеллект остается для человечества «черным ящиком» — мы не понимаем, как и почему ИИ принимает те или иные решения. Он сравнил общий ИИ с «сообществом гениев, заключённым в дата-центре», и заявил, что развертывать такие системы без глубокого понимания их внутренней логики — опасно. В перспективе Anthropic намерена выполнять своего рода «сканирование мозга» своих ИИ-моделей, чтобы находить слабые места — от склонности ко лжи до стремления к контролю.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В эссе «Срочность интерпретируемости» Амодей отмечает, что Anthropic добилась первых успехов в отслеживании логики работы моделей, но подчеркивает: для расшифровки всё более сложных решений потребуются масштабные исследования. «Развертывание таких систем без глубокого понимания их работы вызывает серьёзную озабоченность, — пишет Амодей. — Они станут стержнем экономики, технологий и национальной безопасности, обладая при этом такой автономией, что не знать об их внутренних механизмах будет неприемлемым для человечества».

Anthropic одна из первых начала предпринимать попытки понять, как работают модели искусственного интеллекта «изнутри» и почему они принимают те или иные решения. Эта область называется «механистической интерпретируемостью». ИИ-модели становятся все лучше и быстрее, но их внутреннее функционирование во многом остаются terra incognita для создателей. Например, OpenAI недавно выпустила o3 и o4-mini, которые в некоторых задачах показывают лучшие результаты, но при этом чаще галлюцинируют. И компания не знает, почему это происходит.

Как написал Амодей в своем эссе: «Когда генеративная система ИИ что-то делает, например, обобщает финансовый документ, мы не понимаем в точности, почему она делает именно такой выбор — почему она выбирает одни слова, а не другие, или почему она иногда ошибается, несмотря на то, что обычно бывает точной».

Амодей отмечает, что создание общего искусственного интеллекта (или, как он выражается, «сообщества гениев, заключенного в дата-центре») может быть рискованным, если мы не будем понимать, как работают такие модели. Ранее глава Anthropic предполагал, что технологическая отрасль может достичь AGI к 2026–2027 годам. Сейчас он считает, что до полного понимания принципов работы этих ИИ-моделей еще очень далеко.

В будущем Anthropic надеется проводить своего рода «сканирование мозга» или «МРТ» современных ИИ-моделей. В компании надеются, что такие проверки помогут выявить разные проблемы в работе искусственного интеллекта, например, склонность ко лжи, желание контролировать или другие слабые места. Амодей считает, что на разработку таких методов может уйти 5-10 лет.

Anthropic уже удалось сделать несколько важных открытий, которые помогли им лучше понять, как работают их модели. Например, они нашли способы отслеживания «мыслительных путей» ИИ, которые они называют «цепями». Одна такая «цепь» помогает моделям определять, какие города находятся в каких штатах США. Пока исследователи обнаружили лишь несколько «цепей», но предполагают, что внутри ИИ-моделей их миллионы.

Anthropic также инвестирует в стартап, который занимается этим направлением. Хотя сейчас понимание работы ИИ считается важным для безопасности, Амодей считает, что в будущем умение объяснять, как модель приходит к своим ответам, может стать преимуществом в бизнесе. Он предложил OpenAI и Google DeepMind активнее исследовать интерпретируемость. Кроме того, глава Anthropic обратился к правительствам с просьбой ввести правила, которые бы стимулировали такие исследования. Также Амодей считает, что США следует ограничить продажу чипов в Китай, чтобы снизить риск бесконтрольной гонки в развитии искусственного интеллекта по всему миру.