Машинное обучение решило «проблему Бритни Спирс»
Logo
Cover

Специалисты лаборатории вычислительной техники MIT разработали первую систему машинного обучения, предсказывающую частоту появления определенных элементов данных в потоке. И она превзошла все современные методы по точности.

53

В информатике «проблемой Бритни Спирс» называют вычислительную задачу, связанную с отслеживанием потока данных: вместо того чтобы наблюдать за каждым пакетом пользователя, движущимся от или к провайдеру, разработчики создают алгоритмы, которые прогнозируют частоту обмена данных путем хэширования. Однако при таком подходе детали ускользают, и это неизбежно.

Система LearnedSketch предсказывает, будут ли определенные элементы данных появляться чаще остальных и, если это действительно так, автономно отделяет их от остальной хэшированной группы.

Впервые подход машинного обучения применен не только к оценке частоты, но и к поточным алгоритмам — классу алгоритмов, в которых входящие данные представлены последовательностью и могут быть изучены только в несколько прогонов. Они обычно применяются в системах безопасности и обработки естественного языка, пишет VentureBeat.

В ходе экспериментов LearnedSketch показала способность обнаруживать и изолировать большие объемы данных. Например, система, обученная на 210 млн пакетов данных, превзошла существующие методы по оценке объема сетевого трафика и совершила на 57% меньше ошибок. А по 3,8 млн уникальных запросов, полученных от провайдера America Online, она смогла определить число запросов на поиск на 71% точнее.

Более того, эта система оказалась в высшей мере обобщаемой — структуры, которые она изучает, могут применяться к объектам, которых она не видела раньше.

Разработчики надеются, что однажды LearnedSketch или подобный ИИ будет применяться для отслеживания трендов в социальных сетях или определения пиковой нагрузки в сетевом трафике.

«Подобные результаты показывают, что машинное обучение — это подход, который можно использовать наряду с классическими алгоритмическими парадигмами вроде „разделяй и властвуй“ и динамическим программированием», — считает Хсу Чэнью, соавтор статьи Learning-Based Frequency Estimation Algorithms.

В Калифорнии с октября этого года подозреваемые смогут выходить под залог, сумму которого определит искусственный интеллект. Алгоритм составит прогноз на основании биографии нарушителя и количества прошлых судимостей, и укажет, кого можно опустить до суда, а кто должен остаться за решеткой.