Hitech logo

Кейсы

Anthropic обучила рассуждающий ИИ в разы дешевле конкурентов

TODO:
Дарина Житова27 февраля, 16:54

Западные компании следуют примеру DeepSeek и начинают выпускать мощные ИИ-модели, обученные за крайне небольшие бюджеты. Anthropic потратила на обучение своей новой флагманской модели искусственного интеллекта Claude 3.7 Sonnet всего несколько десятков миллионов долларов. Для сравнения: OpenAI потратила на GPT-5 от $1,5 миллиардов. О достижении Anthropic сообщил профессор Уортонской школы бизнеса Итан Моллик, ссылаясь на представителей компании. Он уточнил, что обучение модели потребовало менее 1014 Тфлопс вычислительных ресурсов. Тем временем DeepSeek начинает демпинговать — компания снизила вдвое стоимость доступа к ИИ-модели в ночное время.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Снижение стоимости обучения может указывать на удешевление разработки ИИ-систем. Гендиректор Anthropic Дарио Амодеи уточнил, что обучение предыдущей модели Claude 3.5 Sonnet стоило примерно столько же. Для сравнения, OpenAI потратила на разработку GPT-4 $100 млн, а Google, по оценкам, вложила в обучение Gemini Ultra около $200 млн.

Однако Амодеи не ожидает, что в будущем затраты продолжат снижаться. Бесконечно экономить за счет передовых методик обучения не получится. По его словам, обучение ИИ будет обходиться в миллиарды долларов, не считая расходов на тестирование безопасности и фундаментальные исследования. Новые «рассуждающие» модели требуют больше вычислительных ресурсов, так как дольше обрабатывают запросы.

Claude 3.7 Sonnet — первая гибридная ИИ-модель Anthropic, которая сочетает мгновенный ответ с возможностью углубленного анализа. Пользователи могут выбирать, использовать ли режим «рассуждения», который позволяет модели обрабатывать запрос дольше для более точного результата. В отличие от большинства чат-ботов, где нужно выбирать между разными моделями с разной стоимостью, Anthropic предлагает универсальное решение. Компания оптимизировала Claude 3.7 Sonnet для сложных задач, таких как программирование и работа с API, что делает её конкурентоспособной в тестах.

В испытаниях на программирование Claude 3.7 Sonnet показала результат 62,3% на SWE-Bench, тогда как o3-mini от OpenAI набрал 49,3%. В тесте TAU-Bench, оценивающем взаимодействие с API, модель достигла 81,2% против 73,5% у конкурента. Claude 3.7 Sonnet также лучше фильтрует вредные запросы и на 45% реже отказывается отвечать по сравнению с предшественницей. Однако режим «рассуждения» доступен только платным подписчикам, а стоимость использования модели выше, чем у некоторых аналогов.

Между тем DeepSeek, которая задала мировой тренд на экономное обучение ИИ-моделей, продолжает продвигать свой продукт и привлекать пользователей за пределами Китая. Стартап снизит стоимость доступа к модели DeepSeek V3 для разработчиков вдвое в ночное время — с 00:30 до 8:30 по пекинскому времени. Кроме того, использование модели R1 через API станет дешевле на 75%.

Так компания пытается сбалансировать нагрузку на свою инфраструктуру, которая увеличилась из-за роста популярности облачных сервисов. В Китае DeepSeek активно используют не только частные разработчики, но и крупные технологические компании, такие как Tencent Holdings и Perplexity AI. Государственные учреждения тоже пользуются сервисами DeepSeek, поскольку местные законы запрещают передавать данные за границу.

Компания уже предупреждала пользователей о возможных проблемах с доступом в дневные часы. Снижение стоимости ночью должно перераспределить нагрузку, сделав работу системы стабильнее. Для клиентов за пределами Китая, особенно в других часовых поясах, ночной тариф может оказаться ещё выгоднее. Однако в ряде стран, включая Италию и Южную Корею, чиновникам запретили использовать DeepSeek.