Hitech logo

Кейсы

Компактная ИИ-модель Phi-3-vision от Microsoft «читает» изображения

TODO:
Екатерина Шемякинская22 мая, 10:06

Microsoft анонсировала новую версию своей небольшой языковой модели Phi-3, которая может просматривать картинки и сообщать пользователю, что на них изображено. Phi-3-vision, ориентированная на мобильные устройства, является мультимодальной моделью с 4,2 млрд параметров. Она способна выполнять задачи, связанные с визуальным анализом, например, отвечать на вопросы по диаграммам. Рост популярности компактных ИИ-моделей обусловлен спросом на доступные и менее ресурсоемкие решения, подходящие для смартфонов или ноутбуков.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Phi-3-vision — это мультимодальная модель, то есть она может читать как текст, так и изображения, и ее лучше всего использовать на мобильных устройствах. Microsoft заявляет, что Phi-3-vision, которая теперь доступна в предварительной версии, получила 4,2 млрд параметров. Количество параметров указывает на сложность модели и объем усвоенных ею данных во время обучения. Модель способна выполнять общие задачи визуального анализа, например, отвечать на вопросы по диаграммам или изображениям.

При этом Phi-3-vision намного меньше, чем другие модели искусственного интеллекта, ориентированные на изображения — DALL-E от OpenAI или Stable Diffusion от Stability AI. В отличие от них, Phi-3-vision не генерирует изображения, но может понимать, что находится на картинке, и анализировать ее для пользователя.

Microsoft представила семейство моделей Phi-3 в апреле, выпустив самую компактную из них — Phi-3-mini с 3,8 млрд параметров. Всего семейство Phi-3 насчитывает три модели: Phi-3-mini, Phi-3-small (7 млрд параметров) и Phi-3-medium (14 млрд параметров).

Разработчики ИИ-моделей всё чаще выпускают компактные и легкие решения, такие как Phi-3. Это связано с растущим спросом на доступные и менее требовательные к вычислительным ресурсам сервисы искусственного интеллекта. Маленькие модели идеально подходят для внедрения функций ИИ на устройства с ограниченной памятью, например, смартфоны и ноутбуки.

Помимо Phi-3 и его предшественника Phi-2, Microsoft уже представила ряд других компактных моделей. Сообщается, что Orca-Math, модель Microsoft для решения математических задач, справляется с ними лучше, чем более крупные аналоги, такие как Gemini Pro от Google.

Phi-3-Vision теперь доступна для предварительного тестирования. Другие модели из семейства уже можно использовать через библиотеку моделей Azure.