Phi-3-vision — это мультимодальная модель, то есть она может читать как текст, так и изображения, и ее лучше всего использовать на мобильных устройствах. Microsoft заявляет, что Phi-3-vision, которая теперь доступна в предварительной версии, получила 4,2 млрд параметров. Количество параметров указывает на сложность модели и объем усвоенных ею данных во время обучения. Модель способна выполнять общие задачи визуального анализа, например, отвечать на вопросы по диаграммам или изображениям.
При этом Phi-3-vision намного меньше, чем другие модели искусственного интеллекта, ориентированные на изображения — DALL-E от OpenAI или Stable Diffusion от Stability AI. В отличие от них, Phi-3-vision не генерирует изображения, но может понимать, что находится на картинке, и анализировать ее для пользователя.
Microsoft представила семейство моделей Phi-3 в апреле, выпустив самую компактную из них — Phi-3-mini с 3,8 млрд параметров. Всего семейство Phi-3 насчитывает три модели: Phi-3-mini, Phi-3-small (7 млрд параметров) и Phi-3-medium (14 млрд параметров).
Разработчики ИИ-моделей всё чаще выпускают компактные и легкие решения, такие как Phi-3. Это связано с растущим спросом на доступные и менее требовательные к вычислительным ресурсам сервисы искусственного интеллекта. Маленькие модели идеально подходят для внедрения функций ИИ на устройства с ограниченной памятью, например, смартфоны и ноутбуки.
Помимо Phi-3 и его предшественника Phi-2, Microsoft уже представила ряд других компактных моделей. Сообщается, что Orca-Math, модель Microsoft для решения математических задач, справляется с ними лучше, чем более крупные аналоги, такие как Gemini Pro от Google.
Phi-3-Vision теперь доступна для предварительного тестирования. Другие модели из семейства уже можно использовать через библиотеку моделей Azure.