Обучение генеративных моделей — дорогой и сложный процесс, который не по карману большинству организаций. Однако появление открытых моделей вроде Llama 2 или Mistral позволило разработчикам искать и находить инновационные способы повышения их эффективности при небольших затратах. Один из таких способов — «слияние моделей», когда различные компоненты двух и более обученных ранее моделей соединяются для создания новой. Если процесс проходит успешно, возникшая модель наследует сильные стороны и способности родителей.
Что любопытно, созданные слиянием модели не требуют дополнительного обучения, что делает их крайне выгодными. Многие из самых производительных моделей среди открытых БЯМ представляют собой плод слияния популярных базовых моделей. Этот метод обещает исследователям, разработчикам и организациям возможность создавать новые ИИ по крайне разумной цене. Однако, сам процесс слияния во многом зависит от интуиции и знания предметной области, пишет Venture Beat.
Sakana AI обещает более систематический подход к созданию эффективных моделей методом слияния. «Мы полагаем, что эволюционные алгоритмы, вдохновленные естественным отбором, могут стать более эффективным решением», — говорится в пресс-релизе Sakana AI.
Эволюционные алгоритмы — популяционные механизмы оптимизации, комбинирующие элементы и отбирающие наилучшие решения с помощью функции приспособленности. Они способны находить уникальные решения и комбинации, которые упустили традиционные методы и интуиция человека.
В ходе испытаний эволюционного метода исследователи создали большую языковую модель на базе японского, способную решать математические задачи, и большую визуальную модель. Обе модели показали высокий уровень производительности по ряду стандартных тестов, хотя и не были предварительно оптимизированы под них.
Токийский стартап заявил о своем существовании летом прошлого года. Его основали бывший инженер Google Дэвид Ха и специалист по ИИ Ллайон Джонс, автор архитектуры Transformer, наделяющей модель своего рода вниманием.
Большие языковые модели ведут себя так, как, согласно учебникам математики, вести себя не должны. Несмотря на успех технологии глубокого обучения, никто точно не знает, как и почему она работает, пишет в редакционной колонке MIT Technology Review. А некоторые принципы обучения искусственного интеллекта противоречат классической статистике.