Phi-3.5 Mini Instruct — это компактная языковая модель с 3,8 млрд параметров, оптимизированная для точного выполнения инструкций и обработки контекста длиной до 128 тыс. токенов. Она подойдет для задач, требующих глубокого логического мышления при ограниченных вычислительных ресурсах. К таким сценариям относятся генерация кода, решение математических задач и логические рассуждения. Несмотря на компактные размеры, Phi-3.5 Mini Instruct эффективна при решении многоязычных задач и задач, требующих поддержания контекста в диалогах. Модель показывает почти самые лучшие результаты в разных тестах и даже обгоняет другие модели такого же размера (Llama-3.1-8B-instruct и Mistral-7B-instruct) в понимании кода, когда речь идет о больших фрагментах текста.
Phi-3.5 MoE (Mixture of Experts) сочетает в себе несколько разных типов моделей, каждая из которых специализируется на различных задачах. Эта модель использует архитектуру с 42 млрд параметров и поддерживает длину контекста токена 128 тыс., обеспечивая масштабируемость ИИ для требовательных приложений. Однако, согласно документации Hugging Face, в текущей реализации используется лишь 6,6 млрд активных параметров.
Разработанный для решения различных задач на рассуждение, Phi-3.5 MoE демонстрирует высокую производительность в коде, математике и понимании языка, часто превосходя более крупные модели в определенных тестах, например, RepoQA. Модель даже обошла GPT-4o mini в сложном тесте MMLU, где нужно показать знания в разных областях, от точных наук до гуманитарных. Уникальная архитектура модели MoE позволяет ей сохранять эффективность при выполнении сложных задач искусственного интеллекта на нескольких языках.
Завершает трио модель Phi-3.5 Vision Instruct, которая объединяет обработку текста и изображений. Эта мультимодальная модель подходит для таких задач, как общее понимание изображений, оптическое распознавание символов, понимание диаграмм и таблиц, а также обобщение видео. Как и другие модели серии Phi-3.5, Vision Instruct поддерживает контекстное окно в 128 тыс. токенов, что позволяет ей обрабатывать сложные визуальные задачи с несколькими кадрами. Microsoft отмечает, что модель была обучена на основе комбинации синтетических и отфильтрованных открытых данных с упором на высококачественные данные, требующие сложных рассуждений.
Модель Phi-3.5 Mini Instruct обучалась на 3,4 трлн токенов с использованием 512 графических процессоров H100-80G в течение 10 дней, тогда как модель Vision Instruct обучалась на 500 млрд токенов с использованием 256 графических процессоров A100-80G в течение шести дней. Для обучения модели Phi-3.5 MoE понадобилось 4,9 трлн токенов, 512 графических процессоров H100-80G и 23 дня.
Все три модели серии Phi-3.5 распространяются под лицензией MIT, что свидетельствует о приверженности Microsoft принципам открытого исходного кода. Лицензия предоставляет разработчикам широкие права на использование, модификацию, распространение и коммерциализацию программного обеспечения. При этом Microsoft и прочие правообладатели не несут ответственности за любые негативные последствия, связанные с использованием данного ПО. Предоставляя модели по открытой лицензии, Microsoft дает разработчикам возможность интегрировать передовые возможности искусственного интеллекта в свои приложения, способствуя инновациям как в коммерческой, так и в исследовательской сфере.