БЯМ состоит из множества связанных между собой частей и разбивает текст на отдельные слова или их части, которые называются токенами. Каждому токену модель присваивает свое представление, что помогает ей понимать, как слова связаны друг с другом, и находить следующее слово. В случае изображений или звука токены соответствуют отдельным частям картинки или звукового файла. Ученые выяснили, что первые слои модели обрабатывают информацию на конкретном языке или в определенном формате, как будто это разные участки мозга. Затем модель превращает токены в универсальные понятия, чтобы анализировать их на более глубоких уровнях. Аналогичным образом мозг объединяет разную информацию в единое целое.
Модель присваивает схожие представления входным данным с близким значением, независимо от их типа — изображения, аудио, код или задачи. Картинка и ее текстовое описание, имея разный формат, получат схожие представления из-за общего смысла.
Например, англоязычная нейросеть «думает» о китайском тексте на английском, прежде чем выдать результат на китайском. Такое же поведение характерно для программирования, математических задач и мультимодальных данных.
Для проверки этой гипотезы исследователи использовали пары предложений с одинаковым значением, но на разных языках, пропуская их через модель и измеряя сходство представлений. Затем они «скормили» англоязычной модели текст на другом языке — китайском, и сравнили его внутреннее представление с представлениями для английского и китайского языков. Аналогичные эксперименты были проведены и с другими типами данных.
Оказалось, что модель демонстрирует схожие представления для предложений с близким смысловым значением. Анализ различных типов данных показал, что токены, обрабатываемые моделью во внутренних слоях, в большей степени соответствуют английским токенам, чем токенам входных данных. Многие типы информации, кардинально отличающиеся от базового языка, все равно содержат токены, связанные с английским. Это наблюдается, например, при работе с математикой и кодом.
По мнению исследователей, БЯМ могут осваивать стратегию «семантического центра» во время обучения, так как это экономичный способ обработки разных сведений.
Существует множество языков, однако большая часть знаний, например, общеизвестные факты, — универсальна. Моделям не нужно дублировать эти знания для каждого языка.
Исследователи также попытались вмешаться во внутренние слои модели, используя английский текст, когда она обрабатывала другие языки. Они обнаружили, что могут контролируемо менять выходные данные, даже если они представлены на другом языке. Этот эффект можно использовать для улучшения взаимодействия модели с разными форматами данных.
С другой стороны, некоторые понятия и знания, например, культурные, могут быть непереводимыми. В таких случаях БЯМ нужны механизмы обработки, специфичные для каждого языка. По словам ученых, необходимо найти баланс между общими знаниями и языковыми особенностями. Часто англоязычная модель, изучая другой язык, теряет точность в английском. Понимание «семантического центра» модели поможет это предотвратить.