Hitech logo

Кейсы

Стартап Миры Мурати представил ИИ, который видит, слышит и реагирует в реальном времени

TODO:
Екатерина ШемякинскаяСегодня, 10:51 AM

Лаборатория Thinking Machines Labs опубликовала результаты предварительного исследования нового класса нейросетей — моделей взаимодействия (Interaction Models). В отличие от существующих систем, где интерактивность имитируется внешними модулями, эти модели изначально спроектированы для бесшовного сотрудничества с человеком. ИИ больше не ждет, пока пользователь закончит фразу: он воспринимает потоки аудио и видео непрерывно, что позволяет ему реагировать, перебивать и действовать одновременно с собеседником.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Большинство моделей работают пошагово: пока человек говорит или пишет, восприятие модели «замирает», а во время генерации ответа ИИ перестает воспринимать новую информацию. Thinking Machines стремится преодолеть этот барьер, позволяя людям взаимодействовать с ИИ так же естественно, как друг с другом, используя мгновенную обратную связь. Флагманская модель компании, TML-Interaction-Small, представляет собой архитектуру «смесь экспертов» (Mixture-of-Experts) с 276 млрд параметров и 12 млрд активных параметров на токен.

В основе лежит «микроповоротная» архитектура (micro-turn architecture), синхронизированная по времени. Вместо обработки целых реплик, модель разбивает взаимодействие на крошечные фрагменты длительностью 200 мс. Это позволяет ИИ не только слушать и говорить одновременно, но и отслеживать динамику диалога — понимать, когда пользователь замялся, когда ждет ответа, а когда его нужно вежливо перебить. В ходе беседы модель может осуществлять поиск, просматривать веб-страницы или генерировать пользовательский интерфейс, при необходимости вплетая результаты в разговор.

Инженеры разделили систему на два уровня. «Модель взаимодействия» отвечает за мгновенные реакции и поддержание контакта в реальном времени. Если задача требует глубоких размышлений или поиска в сети, она делегирует её асинхронной «фоновой модели». Такой тандем позволяет сохранить «интеллект класса GPT-5» без ущерба для скорости отклика, обеспечивая задержку всего в 0,4 секунды.

Все это стало возможным благодаря обучению модели с нуля без использования сторонних кодировщиков. Thinking Machines применили метод «раннего слияния», при котором аудиосигналы и видеофрагменты поступают напрямую в трансформер. Это исключает задержки, характерные для систем, которые сначала переводят голос в текст, а затем генерируют ответ через синтезатор речи.

Возможности TML-Interaction-Small были подтверждены на внутренних бенчмарках TimeSpeak и CueSpeak. Модель способна выполнять задачи, недоступные текущим коммерческим API. Например, напоминать о дыхательных упражнениях каждые четыре секунды или в реальном времени исправлять произношение.

Кроме того, ИИ самостоятельно начинал разговор, заметив изменения в кадре, например, считал отжимания без голосовых команд.

Вопрос безопасности в интерактивном режиме потребовал особых решений. Команда сфокусировалась на «разговорных отказах», чтобы ИИ мог твердо, но естественно отклонять недопустимые запросы прямо в ходе живой беседы. Для этого использовались синтезированные данные, имитирующие различные сценарии диалогов. В результате модель сохраняла устойчивость к манипуляциям даже в условиях длительных сессий.

Разработчики признают ограничения: для стабильной работы видеопотока требуется высокая пропускная способность сети. В ближайшие месяцы Thinking Machines запустит ограниченную исследовательскую версию API, а полноценный релиз более мощных моделей запланирован на конец 2026 года.