Компания «Аватар Машина» при поддержке Ассоциации лабораторий искусственного интеллекта (АЛРИИ) запустила RRNCB (Russian RAG Normative-Corporate Benchmark) — первый в России открытый продуктовый бенчмарк для комплексной оценки RAG-решений. Инициатива призвана решить проблему отсутствия прозрачных критериев оценки эффективности ИИ-решений для бизнеса: RRNCB протестирует полные RAG-пайплайны на реальных корпоративных задачах.
«В России уже есть бенчмарки, которые проверяют работу отдельных компонентов ИИ-системы — например, качество LLM-моделей. Но таких бенчмарков, которые бы оценивали весь пайплайн ИИ-продукта и могли бы дать объективное представление о его сильных и слабых сторонах для потенциальных заказчиков — то есть людей, которые с помощью ИИ хотят решить свои бизнес-задачи, — просто нет. RRNCB оценивает весь пайплайн целиком: от извлечения данных до финальной генерации. Мы проверяем, насколько разработчики ИИ-решений квалифицированы в настройке всех компонентов, и даем компаниям объективный инструмент для принятия решений о закупке того или иного решения», — Захар Понимаш, Технический директор «Аватар Машина».
Принять участие в бенчмарке призывают все российские компании, разрабатывающие и продающие собственные ИИ-продукты бизнесу. Участие в первом независимом российском бенчмарке дает компаниям объективное подтверждение качества продукта и инструмент для продаж. Организаторы ожидают заявки от команд разработки из Сбера («GigaChat»), Яндекса («Нейроэксперт»), МТС («Cotype»), Softline («Preferentum»), Авито, Точка Банка, Just AI и других ключевых игроков рынка. Свое участие подтвердили разработчики ИИ-решений от «Дюк Технологии», AutoFAQ.ai, AI Research, Новосибирского государственного университета, Simbirsoft и других.
Компании-разработчики RAG-решений могут подать заявку на участие до 21 ноября через форму на сайте бенчмарка. Первый этап тестирования пройдет с 22 по 28 ноября, второй — с 29 ноября по 10 декабря. Публикация результатов и рейтинга лучших ИИ-решений запланирована на 12 декабря. Подробная информация о методологии, датасетах и процессе участия доступна на сайте бенчмарка.
Бенчмарк проводится при поддержке Ассоциации лабораторий разработки искусственного интеллекта (АЛРИИ), которая обеспечивает экспертное сопровождение и методологическую поддержку проекта.
«Бенчмарк решает важную задачу для индустрии — создает единый стандарт оценки RAG-продуктов. Сейчас компании сталкиваются с проблемой: как объективно сравнить решения, если существующие инструменты тестируют только языковые модели? RRNCB оценивает готовые продукты целиком, что дает рынку прозрачный механизм сравнения и помогает заказчикам принимать обоснованные решения при выборе поставщика», — Вячеслав Береснёв, Исполнительный директор Ассоциации Лабораторий Разработки Искусственного Интеллекта (АЛРИИ), Директор ЦТИИ «Нейролаб», Федеральный эксперт АЦ Минобрнауки России.
Эксперты участвуют в оценке результатов участников и формировании финальных выводов бенчмарка.

