Компактная ИИ-модель Phi-3-vision от Microsoft «читает» изображения

Кейсы

Екатерина Шемякинская22 мая 2024 г., 10:06

Екатерина Шемякинская22 мая 2024 г., 10:06

Microsoft анонсировала новую версию своей небольшой языковой модели Phi-3, которая может просматривать картинки и сообщать пользователю, что на них изображено. Phi-3-vision, ориентированная на мобильные устройства, является мультимодальной моделью с 4,2 млрд параметров. Она способна выполнять задачи, связанные с визуальным анализом, например, отвечать на вопросы по диаграммам. Рост популярности компактных ИИ-моделей обусловлен спросом на доступные и менее ресурсоемкие решения, подходящие для смартфонов или ноутбуков.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Phi-3-vision — это мультимодальная модель, то есть она может читать как текст, так и изображения, и ее лучше всего использовать на мобильных устройствах. Microsoft заявляет, что Phi-3-vision, которая теперь доступна в предварительной версии, получила 4,2 млрд параметров. Количество параметров указывает на сложность модели и объем усвоенных ею данных во время обучения. Модель способна выполнять общие задачи визуального анализа, например, отвечать на вопросы по диаграммам или изображениям.

Создан цемент, охлаждающий стены на 5,4°C под палящим солнцем

При этом Phi-3-vision намного меньше, чем другие модели искусственного интеллекта, ориентированные на изображения — DALL-E от OpenAI или Stable Diffusion от Stability AI. В отличие от них, Phi-3-vision не генерирует изображения, но может понимать, что находится на картинке, и анализировать ее для пользователя.

Microsoft представила семейство моделей Phi-3 в апреле, выпустив самую компактную из них — Phi-3-mini с 3,8 млрд параметров. Всего семейство Phi-3 насчитывает три модели: Phi-3-mini, Phi-3-small (7 млрд параметров) и Phi-3-medium (14 млрд параметров).

Разработчики ИИ-моделей всё чаще выпускают компактные и легкие решения, такие как Phi-3. Это связано с растущим спросом на доступные и менее требовательные к вычислительным ресурсам сервисы искусственного интеллекта. Маленькие модели идеально подходят для внедрения функций ИИ на устройства с ограниченной памятью, например, смартфоны и ноутбуки.

Помимо Phi-3 и его предшественника Phi-2, Microsoft уже представила ряд других компактных моделей. Сообщается, что Orca-Math, модель Microsoft для решения математических задач, справляется с ними лучше, чем более крупные аналоги, такие как Gemini Pro от Google.

Phi-3-Vision теперь доступна для предварительного тестирования. Другие модели из семейства уже можно использовать через библиотеку моделей Azure.

Также по теме

Кейсы

Luna представила мощный электровелосипед за $3450

Кейсы

Исследование: "Hyperloop - единственная нужная США форма скоростного транспорта"

Кейсы

Шаг к «мертвому интернету» - в новой соцсети SocialAI можно общаться только с ИИ

Кейсы

Новый квантовый процессор Google достиг прорывной точности

Новости СМИ2