Система ReALM использует большие языковые модели (БЯМ) для преобразования сложной задачи разрешения референции — включения семантических отсылок в визуальные элементы на экране — в проблему исключительно языкового моделирования. Таким образом ReALM достигает значительного прироста производительности по сравнению с существующими методами.
Главная инновация ReALM состоит в реконструкция экрана при помощи проанализированных сущностей на экране и их расположения, что позволяет генерировать текстовое представление, описывающее визуальную картинку. Исследователи продемонстрировали, что этот подход в сочетании с тонкой настройкой языковых моделей под задачи разрешения референции может породить модель, превосходящую GPT-4.
Исследование указывает на возможность для языковых моделей выполнять задачи разрешения референций в ситуациях, когда использование массивных сквозных моделей невозможно из-за слишком большим временем отклика или ограничения по вычислительной мощности. Вдобавок, Apple посылает сигнал о том, что продолжает работать над улучшением Siri и других своих продуктов, пишет Venture Beat.
Компания, которая давно перестала быть законодателем в области ИТ, теперь вынуждена догонять лидеров вроде Google, Amazon или OpenAI на стремительно меняющемся под действием искусственного интеллекта рынке. В июне, на конференции WWDC 2024 Apple должна представить новую БЯМ, некий чатбот «Apple GPT», а также другие новинки с ИИ.
Генеральный директор Apple Тим Кук пообещал сделать в этом году большой анонс в области ИИ-систем. В этот раз ему, похоже, удастся удивить всех: Apple обсуждает возможность сотрудничества с Google. Новые айфоны получат некоторые функции на основе Gemini. Рынок положительно отреагировал на союз конкурентов — акции Alphabet и Apple уже выросли на 7% и 2% соответственно.