Hitech logo

Кейсы

Компания Маска выпустила первую мультимодальную ИИ-модель — Grok 1.5 Vision

TODO:
Екатерина Смирнова16 апреля, 09:20

Компания Илона Маска xAI, занимающаяся искусственным интеллектом, представила свою первую мультимодальную модель Grok 1.5 Vision, которая будет конкурировать с OpenAI. Помимо понимания текста, модель также может работать с документами, диаграммами, скриншотами и фотографиями. Новая версия способна преобразовывать информацию из изображений в различные форматы, писать творческие тексты и даже давать советы по ремонту дома. По данным компании, Grok 1.5V превосходит другие ИИ-модели в различных тестах.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

В прошлом ноябре компания представила первую версию своей модели искусственного интеллекта Grok. Кроме того, в прошлом месяце она подчеркнула стремление к открытости, сделав доступными исходные коды весов базовой модели и архитектуру сети. Темп работы компании очевиден: ее первая мультимодальная модель ИИ появилась всего через месяц после того, как архитектура Grok стала открытой.

Согласно веб-сайту, Grok 1.5V «соединяет физический и цифровой миры». Компания привела семь примеров, чтобы объяснить, как работает мультимодальная модель. Так, пользователь может поделиться с Grok изображением блок-схемы, а модель ИИ переведет ее в код Python. Показав этикетку с пищевой ценностью, пользователь может узнать, сколько калорий он получит от определенной порции продукта. Модель также может взять детский рисунок и построить на его основе целую сказку на ночь. Если показать Grok мем, модель объяснит, почему он смешной, и предоставит контекст, необходимый для его понимания.

Grok может преобразовать таблицу в формат CSV или помочь исправить нерабочий фрагмент кода. Если нужен совет по ремонту дома, достаточно поделиться изображениями участка, и модель даст рекомендации.

xAI также выпустила новый тест под названием RealWorldQA для оценки пространственного понимания, демонстрируемого мультимодальными моделями. Судя по примерам, предоставленным компанией, Grok 1.5V может просматривать изображения и различать сравнительно большие объекты, а также давать советы по вождению. Согласно данным компании, Grok 1,5V также значительно превосходит другие модели искусственного интеллекта в этом и других тестах.

Илон Маск предсказывает, что искусственный интеллект превзойдет человеческий к концу 2025 года. xAI ставит своей целью разработку полезного искусственного общего интеллекта (AGI), способного понимать вселенную. Компания объявила о значительных улучшениях в возможностях своих моделей в таких областях, как обработка аудио, голоса и видео, которые будут реализованы в ближайшие месяцы.

Grok 1,5V скоро станет доступен для тестировщиков и пользователей, добавила компания в блоге.