Nvidia выпустила семейство больших мультимодальных языковых моделей NVLM 1.0. Самая мощная, NVLM-D-72B, получила 72 млрд параметров. Она адаптируется к разным типам данных — визуальным и текстовым. Модель может интерпретировать мемы, анализировать изображения и решать математические задачи шаг за шагом. Примечательно, что после мультимодального обучения NVLM-D-72B не теряет производительности на задачах только с текстом. В то время как аналогичные модели хуже решают текстовые задачи, NVLM-D-72B повысила свою точность в среднем на 4,3 балла по ключевым текстовым бенчмаркам.
Проект NVLM также вводит новаторские архитектурные решения, среди которых гибридный подход, комбинирующий различные методы мультимодальной обработки. По мнению сторонних исследователей, модель NVLM-D-72B «находится на одном уровне с Llama 3.1 405B по математике и кодированию, а также имеет зрение».
Решение Nvidia сделать столь мощную модель общедоступной может ускорить исследования и разработки в области искусственного интеллекта по всему миру. Предоставляя доступ к модели, которая сопоставима с закрытыми системами крупных технологических компаний, Nvidia поможет меньшим организациям и независимым исследователям внести вклад в развитие ИИ. Этот шаг может вызвать цепную реакцию. Другие технологические лидеры тоже начнут открывать свои исследования, что потенциально ускорит общий прогресс в области искусственного интеллекта.
Но выпуск NVLM-D-72B несет и некоторые риски. По мере того, как мощный ИИ становится доступнее, вероятно, будут расти опасения по поводу его неэтичного использования. Отрасли придется искать баланс между инновациями и безопасностью.
Решение Nvidia бросило вызов игрокам на рынке искусственного интеллекта. Теперь вопрос не только в том, насколько быстро изменится отрасль, но и в том, кто сможет быстрее всех адаптироваться к новым условиям открытой конкуренции.