FoxBrain создана на архитектуре Meta (организация признана экстремистской и запрещена в РФ) Llama 3.1 и имеет 70 млрд параметров. Она превосходит существующие аналоги того же масштаба, в частности модель Taiwan-Llama-70B. Особенно высокие результаты FoxBrain показывает в тестах на математику и логическое мышление, максимально учитывая особенности тайваньского варианта китайского языка.
В процессе обучения использовалось 120 графических процессоров NVIDIA H100 и высокоскоростная сеть NVIDIA Quantum-2 InfiniBand. Весь процесс занял около четырёх недель и потребовал 2688 GPU-дней вычислений. Благодаря оптимизированному подходу к обучению удалось значительно снизить затраты и повысить эффективность.
По словам директора Центра исследований искусственного интеллекта института Hon Hai, доктора Юн-Хуэй Ли, главный акцент в разработке сделан на оптимизацию процесса обучения, а не на увеличение вычислительных мощностей. В FoxBrain применена особая методика под названием Adaptive Reasoning Reflection, которая обучает модель самостоятельно вести логические рассуждения и находить решения сложных задач.
FoxBrain обучалась на уникальном наборе данных, состоящем из 98 млрд токенов текста высокого качества на китайском языке. Контекстное окно модели может вместить 128 тысяч токенов. По результатам тестирования на базе TMMLU+, модель продемонстрировала значительные улучшения по сравнению с базовой моделью Meta Llama 3.1 и даже приблизилась к мировым лидерам в области логических рассуждений, таким как DeepSeek.
FoxBrain разрабатывалась для внутренних задач Foxconn, включая аналитику данных, поддержку принятия решений, совместную работу с документами, решение математических задач и генерацию программного кода. Однако компания уже объявила о планах сотрудничества с другими разработчиками и технологическими партнёрами. В будущем модель будет открытой, а её возможности планируется расширить на производство, управление цепочками поставок и принятие решений на основе искусственного интеллекта.
Поддержку в разработке FoxBrain оказывала компания NVIDIA, предоставившая мощности суперкомпьютера Taipei-1 и консультации своих технических специалистов. Новая модель станет частью общей технологической модернизации трёх ключевых направлений Foxconn: умного производства, умного электротранспорта и умных городов.
FoxBrain официально представят на конференции NVIDIA GTC 2025 20 марта, в рамках доклада о новых возможностях и развитии фундаментальных моделей искусственного интеллекта.