Эксперимент специалистов DeepMind продемонстрировал, что после незначительных модификаций БЯМ могут сжимать информацию так же эффективно, а в некоторых случаях, даже лучше, чем широко распространенные алгоритмы сжатия.
Несмотря на то, что способность к сжатию данных у систем искусственного интеллекта известна исследователям машинного обучения давно, большинство из них не знают об этом, пишут разработчики из DeepMind. Поэтому они взялись популяризировать эту важную идею, сообщает Venture Beat.
По сути, модель машинного обучения учится трансформировать входящие данные — текст или изображения, например — в «скрытое пространство», охватывающее ключевые функции данных. Это пространство обычно имеет меньше измерений, чем пространство входящей информации, что позволяет модели уменьшить размер данных, то есть, выступить в роли устройства сжатия данных.
В своем исследовании Google DeepMind перенастроили БЯМ с открытым кодом таким образом, чтобы она выполняла арифметическое кодирование, один из алгоритмов обратимого сжатия. Это стало возможно, по их словам, потому что БЯМ обучатся с логарифмической потерей, или перекрестной энтропией, которая увеличивает вероятность подбора естественных фраз при генерации текста.
Ученые протестировали возможности сжатия данных своей БЯМ на тексте, изображениях и аудиоданных. Как и предполагалось, БЯМ отлично справилась с сжатием текста. К примеру, модель Chinchilla с 70 млрд параметров сжала данные до 8,3% от начального размера, значительно превзойдя программы gzip и LZMA2 (32,3% и 23%, соответственно).
Однако и с визуальными и аудиоданными эти модели справились на удивление неплохо, и значимо превзошли специфические для домена алгоритмы вроде PNG или FLAC.
Конечно, из-за своих размеров и скорости использовать БЯМ для сжатия данных непрактично. Однако авторы обратили внимание на другой аспект. Считается, что чем больше БЯМ, тем она лучше. Исследование DeepMind доказывает, что это не обязательно так: несмотря на то, что более крупные модели действительно лучше справляются со сжатием большого объема данных, чем меньше объем данных, тем хуже их производительность. Таким образом, что сжатие может служить индикатором того, насколько хорошо модель справляется с информацией из датасета.
Google DeepMind анонсировала Robotics Transformer 2 (RT-2) — первую модель визуального языка и действия (VLA), которая позволяет роботам выполнять новые задачи без специальной подготовки. По аналогии с тем, как языковые модели изучают общие идеи и концепции из данных в сети, RT-2 использует текст и изображения из интернета для понимания различных концепций реального мира и преобразования этих знаний в инструкции для роботов.