Hitech logo

Кейсы

OpenAI представила GPT-5.6 в версиях Sol, Terra и Luna, но доступ к ним не открыла

TODO:
Екатерина ШемякинскаяСегодня, 09:25 AM

OpenAI начала ограниченное тестирование новой линейки моделей GPT-5.6, представив три версии — мощную Sol, универсальную Terra и экономичную Luna. Компания планировала открыть доступ широкой аудитории в ближайшие недели, однако из-за требований правительства США решила сначала предоставить модели только группе доверенных партнёров. Флагманская Sol получила улучшенные алгоритмы рассуждения, поддержку субагентов и показала рекордные результаты в тестах на программирование, биологический анализ и кибербезопасность.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Sol — самая мощная модель OpenAI на сегодняшний день, получившая новый алгоритм рассуждений и режим работы с субагентами для ускорения сложных задач. Terra по характеристикам сопоставима с GPT-5.5, но стоит вдвое дешевле. Luna предлагает высокую производительность по минимальной цене. Новая система именования отражает логику линейки: цифра обозначает поколение, а Sol, Terra и Luna — уровни возможностей, которые могут развиваться независимо.

В бенчмарке Terminal-Bench 2.1, проверяющем агентные рабочие процессы в командной строке, GPT-5.6 Sol Ultra набрала 91,9% — лучший результат среди всех протестированных моделей. Для сравнения, Claude Mythos 5 показал 84,3%, GPT-5.5 — 88%, Gemini 3.1 Pro Preview — 70,7%.

На биологическом бенчмарке GeneBench v1, оценивающем геномные и количественные анализы, Sol превзошёл GPT-5.5 при меньшем расходе токенов.

На ExploitBench, оценивающим возможности модели в области кибербезопасности, GPT-5.6 Sol показал результаты, сопоставимые с Mythos Preview, используя при этом лишь треть выходных токенов. При этом Sol лучше работает как инструмент обнаружения и исправления уязвимостей, чем как средство атаки, и её применение не влияет на безопасность стратегических систем. В тестах он выявлял отдельные ошибки и примитивы эксплойтов, но не смог автономно создать функциональный эксплойт с полной цепочкой уязвимостей.

Система безопасности GPT-5.6 многоуровневая. Первый уровень — защита, заложенная непосредственно в модель. Она обучена отклонять запросы на запрещённые действия, даже если пользователь пытается замаскировать свои истинные намерения. Второй уровень — классификаторы злоупотреблений в реальном времени. При обнаружении потенциального нарушения генерация приостанавливается и передаётся на проверку более крупной модели. Третий уровень — анализ на уровне аккаунта: система отслеживает паттерны поведения в нескольких разговорах, отличая систематически вредоносное использование от легитимной работы в сфере безопасности.

На тестирование защиты OpenAI потратила более 700 тыс. часов работы GPU, эквивалентных A100. Основной задачей стал автоматический поиск универсальных методов взлома, то есть атак, эффективных в разных сценариях, а не в каком-то одном. Параллельно проводилось ручное тестирование с привлечением внешних экспертов, которое продолжится и в период предварительного доступа к модели. Компания также поддерживает систему быстрого реагирования на новые джейлбрейки — от их обнаружения до устранения и добавления в тестовые наборы.

Цены на GPT-5.6 снижены по сравнению с предыдущими поколениями. Sol стоит $5 за миллион входных токенов и $30 за выходные, Terra — $2,50 и $15 соответственно, Luna — $1 и $6. Компания изменила кэширование: теперь можно вручную задавать точки сохранения, а минимальное время хранения кэша увеличено до 30 минут.

Запись в кэш обходится в 1,25 от стоимости входных токенов, а повторное обращение к сохранённым данным — на 90% дешевле. В июле OpenAI планирует запустить Sol на платформе Cerebras со скоростью до 750 токенов в секунду.

Запуск GPT-5.6 обнажает нарастающее противоречие между технологическими возможностями ИИ и государственным регулированием. OpenAI открыто не согласна с тем, что правительство может требовать ограничения доступа к коммерческим моделям без чётких критериев и прозрачной процедуры. Компания утверждает, что это лишает разработчиков, бизнес и специалистов по кибербезопасности доступа к лучшим инструментам. Нынешний поэтапный запуск — временный компромисс на пути к выработке системных правил для будущих релизов.