Запуск FLUX.1 состоялся спустя 7 недель после неудачного релиза Stable Diffusion 3 Medium от Stability AI, которая подверглась критике за плохую работу с человеческой анатомией. Пользователи жаловались на искаженные конечности и тела на изображениях. Это произошло после ухода 3 ключевых инженеров из Stability AI — Робина Ромбаха, Андреаса Блаттманна и Доминика Лоренца. Они основали Black Forest Labs вместе с автором первой версии Stable Diffusion, Патриком Эссером.
Стартап представил 3 модели FLUX.1: коммерческую «pro» версию, среднюю «dev» версию с открытыми весами для некоммерческого использования и более быструю «schnell» версию. По заявлению компании, их модели превосходят существующие аналоги, такие как Midjourney и DALL-E, по качеству изображений и соответствию текстовым запросам.
Выходные данные двух старших моделей FLUX.1 сравнимы с DALL-E 3 от OpenAI по точности выполнения запросов и реалистичности изображений, приближающейся к Midjourney 6. Модели FLUX.1 используют гибридную архитектуру, объединяющую трансформеры и диффузионные техники, и масштабированы до 12 миллиардов параметров. Black Forest Labs улучшила предыдущие модели диффузии, добавив некоторые функции, такие как согласование потоков.
FLUX.1 хорошо изображает человеческие руки, что было слабым местом ранних моделей, таких как Stable Diffusion 1.5. Хотя другие генераторы изображений ИИ, например, Midjourney, уже освоили эту задачу, FLUX.1 выделяется среди моделей с открытыми весами.
Black Forest Labs уже привлек $31 миллион от Andreessen Horowitz, General Catalyst и MätchVC. В числе советников компании — бывший президент Disney Майкл Овитц и исследователь ИИ Маттиас Бетге. Основатели заявляют, что стремятся повысить доверие общественности к ИИ, выпуская безопасные модели.
В стартапе не уточнили, где взяли данные для обучения моделей FLUX.1. Есть предположения, что, как и Stability AI, они могли использовать изображения из интернета, защищенные авторским правом. Это может привести к юридическим проблемам в будущем.