Hitech logo

Кейсы

Microsoft выпустила новые модели Phi-3.5, превосходящие решения от Google и OpenAI

TODO:
Екатерина Смирнова21 августа, 10:04

Microsoft не ограничивается успехами, достигнутыми в партнерстве с OpenAI, и продолжает развивать собственные технологии искусственного интеллекта. Серия Phi 3.5 пополнилась тремя моделями: Phi-3.5-mini-instruct с 3,82 млрд параметров для базового рассуждения, Phi-3.5-MoE-instruct с 41,9 млрд параметров для более сложных задач и Phi-3.5-vision-instruct с 4,15 млрд параметров для анализа изображений и видео. Эти модели доступны для разработчиков на платформе Hugging Face под лицензией MIT, что позволяет свободно использовать их и модифицировать. Новинки демонстрируют высокие результаты в тестах и превосходят конкурентов, включая модели Google Gemini 1.5 Flash, Meta Llama 3.1 (компания признана экстремистской и запрещена в РФ) и даже GPT-4o от OpenAI.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Phi-3.5 Mini Instruct — это компактная языковая модель с 3,8 млрд параметров, оптимизированная для точного выполнения инструкций и обработки контекста длиной до 128 тыс. токенов. Она подойдет для задач, требующих глубокого логического мышления при ограниченных вычислительных ресурсах. К таким сценариям относятся генерация кода, решение математических задач и логические рассуждения. Несмотря на компактные размеры, Phi-3.5 Mini Instruct эффективна при решении многоязычных задач и задач, требующих поддержания контекста в диалогах. Модель показывает почти самые лучшие результаты в разных тестах и даже обгоняет другие модели такого же размера (Llama-3.1-8B-instruct и Mistral-7B-instruct) в понимании кода, когда речь идет о больших фрагментах текста.

Phi-3.5 MoE (Mixture of Experts) сочетает в себе несколько разных типов моделей, каждая из которых специализируется на различных задачах. Эта модель использует архитектуру с 42 млрд параметров и поддерживает длину контекста токена 128 тыс., обеспечивая масштабируемость ИИ для требовательных приложений. Однако, согласно документации Hugging Face, в текущей реализации используется лишь 6,6 млрд активных параметров.

Разработанный для решения различных задач на рассуждение, Phi-3.5 MoE демонстрирует высокую производительность в коде, математике и понимании языка, часто превосходя более крупные модели в определенных тестах, например, RepoQA. Модель даже обошла GPT-4o mini в сложном тесте MMLU, где нужно показать знания в разных областях, от точных наук до гуманитарных. Уникальная архитектура модели MoE позволяет ей сохранять эффективность при выполнении сложных задач искусственного интеллекта на нескольких языках.

Завершает трио модель Phi-3.5 Vision Instruct, которая объединяет обработку текста и изображений. Эта мультимодальная модель подходит для таких задач, как общее понимание изображений, оптическое распознавание символов, понимание диаграмм и таблиц, а также обобщение видео. Как и другие модели серии Phi-3.5, Vision Instruct поддерживает контекстное окно в 128 тыс. токенов, что позволяет ей обрабатывать сложные визуальные задачи с несколькими кадрами. Microsoft отмечает, что модель была обучена на основе комбинации синтетических и отфильтрованных открытых данных с упором на высококачественные данные, требующие сложных рассуждений.

Модель Phi-3.5 Mini Instruct обучалась на 3,4 трлн токенов с использованием 512 графических процессоров H100-80G в течение 10 дней, тогда как модель Vision Instruct обучалась на 500 млрд токенов с использованием 256 графических процессоров A100-80G в течение шести дней. Для обучения модели Phi-3.5 MoE понадобилось 4,9 трлн токенов, 512 графических процессоров H100-80G и 23 дня.

Все три модели серии Phi-3.5 распространяются под лицензией MIT, что свидетельствует о приверженности Microsoft принципам открытого исходного кода. Лицензия предоставляет разработчикам широкие права на использование, модификацию, распространение и коммерциализацию программного обеспечения. При этом Microsoft и прочие правообладатели не несут ответственности за любые негативные последствия, связанные с использованием данного ПО. Предоставляя модели по открытой лицензии, Microsoft дает разработчикам возможность интегрировать передовые возможности искусственного интеллекта в свои приложения, способствуя инновациям как в коммерческой, так и в исследовательской сфере.