Краткосрочные и долгосрочные модели прогнозирования
Существуют различные модели временных рядов для прогнозирования в рамках разных задач — например, чтобы рассчитать потенциальный прирост после маркетинговой компании, достаточно составить модель на неделю-месяц. А долгосрочные модели нужны, соответственно, для планирования годовой маркетинговой стратегии компании, для составления бюджета и так далее. Очень важно выбрать правильную модель. Самая распространённая сейчас — ARIMA, например, применяется для краткосрочного прогнозирования. Если увеличить горизонт прогноза модель начинает рассчитывать новые значения на основании своих же предсказаний.
Обзор моделей временных рядов
Простая скользящая средняя (Simple Moving Average (SMA))
Простая скользящая средняя — это функция, численно равная среднему арифметическому значению исходной функции за установленный период. Этот инструмент не подходит для долгосрочного планирования, так как рассчитывает лишь тренд, — тенденцию на повышение или понижение. Пользователь сам выбирает период N, на основе которого производится прогнозирование. Простая скользящая средняя чаще всего используется трейдерами. Эксперты считают, что эта модель подходит только для прогнозирования товаров с гладким регулярным спросом. Одним из недостатков SMA является то, что каждая точка в серии данных имеет одинаковый вес, независимо от того, где она встречается в последовательности. Считается, что последние данные более значительны для оценки актива, чем более старые данные и должны иметь большее влияние на конечный результат. Для этого была создана следующая модель.
Экспоненциальная скользящая средняя (Exponential Moving Average (EMA))
Экспоненциальная скользящая средняя — это функция, веса которой убывают экспоненциально и никогда не равны нулю. При расчёте EMA новые данные имеют большее значение. В отличие от SMA такая функция более чувствительна к изменениям цен. Экспоненциальная скользящая средняя также используется для расчёта тренда изменений, её период можно задать самостоятельно.
ARIMA (Auto-Regressive Integrated Moving Average)
ARIMA — это одна из самых распространённых моделей прогнозирования временных рядов. ARIMA является расширением моделей ARMA для нестационарных временных рядов, которые можно сделать стационарными взятием разностей некоторого порядка от исходного временного ряда. AR — модель авторегрессии, MA — модель скользящей средней. ARIMA применяется для построения краткосрочных прогнозов величины на основании её предыдущих значений. При увеличении горизонта прогноза модель начинает рассчитывать новые значения на основании своих же предсказаний, то есть снижается её точность. ARIMA, так же как и виды скользящей средней, упомянутые выше, применяется для планирования стационарных процессов. Эта модель временных рядов имеет некоторые модификации с добавленными расширениями для учёта внешних факторов. Одной из таких модификаций является модель SARIMA.
SARIMA (Seasonal ARIMA)
SARIMA — это модель временных рядов ARIMA с добавлением фактора сезонности. Для этого в модель добавлены три параметра: период сезонности, параметр авторегрессии со сезонностью и параметр скользящего среднего с сезонностью. Такая модификация применяется для прогнозирования в разных сферах: мы можем наблюдать сезонность продаж в зависимости от праздников, сезонность заболеваний, сезонность потребления электроэнергии, а затем с помощью SARIMA рассчитать тренд на следующий сезон.
Prophet (by Facebook)
Prophet — это автоматический «строитель» временных рядов, основанный на аддитивной модели. Он использует следующие параметры: сезонность, тренд, аномальные дни (например, «Чёрная пятница») и ошибки. Автоматизация Prophet отлично подходит для больших объёмов данных — не нужно рассматривать каждый временной ряд по отдельности. Один из плюсов модели — её можно легко модифицировать.
LSTM (Long Short-Term Memory)
LSTM (Long Short-Term Memory) (долгая краткосрочная память) — это разновидность рекуррентных нейронных сетей (Recurrent Neural Networks, RNN). Эта модификация была создана, чтобы нивелировать главный недостаток RNN — проблемы с обработкой и запоминанием долговременных зависимостей. В стандартной цепочке RNN повторяющиеся модули нейронной цепи состоят из одного слоя. В LSTM каждый модель содержит в себе 4 слоя, которые выполняют функции фильтров — выбирают, от какой информации нужно избавиться, какую оставить, обновить или преобразовать. В сфере прогнозирования LSTM используется для запоминания сезонных колебаний спроса, влияния праздников и других факторов, чтобы выдать более точный прогноз.
Метрики качества
Для оценки результата и точности моделей временных рядов используются разнообразные инструменты-метрики. С помощью них можно провести дополнительное ретроспективное тестирование или бэктест. Использование метрик оценки качества облегчает аналитику данных — намного проще испробовать разные модели на необходимом типе данных с меньшими датасетами, определить наиболее подходящую модель, исправить ошибки, возможно даже модифицировать используемый код и только потом применять его. Семь раз отмерь — один раз отрежь.
Средняя абсолютная ошибка — это степень несоответствия между фактическими и спрогнозированными данными. Чем ближе к нулю значение MAE, тем точнее модель. Эта метрика является линейной, что делает её более наглядной при сравнении точности моделей на разных масштабах данных. Средняя абсолютная ошибка в процентах (Mean Absolute Percentage Error, MAPE) — это MAE, выраженная в долях или процентах. Корень из среднеквадратичной ошибки (Root Mean Squared Error, RMSE) — это метрика, применяемая для того, чтобы подчеркнуть большие ошибки в модели временных рядов. Корень из среднеквадратичной ошибки является более чувствительной метрикой по отношению к аномальным значениям.
Кейс: внедрение Prophet в Factory5
Factory 5 — это российский разработчик IT-решений для промышленных и логистических компаний. Многие клиенты Factory 5 сталкивались с трудностями во время тестирования проектов по анализу больших данных. Согласно статистике Gartner, около 50% IT-разработок не доходят до внедрения, потому что это длительный процесс, который превращается в «проект внутри проекта». А клиентам нужна быстрая, гибкая и не требующая больших усилий тест-система». Разработчики Factory 5 создали новую no-code платформу F5 Future для тестирования гипотез, прогнозирования и улучшения качества работы Big Data проектов. F5 Future — это готовые приложения на базе алгоритмов машинного обучения и кейсы из разных сфер. Вы можете изучить их или же загрузить собственные данные, чтобы самостоятельно пройти сценарий решения задачи. Один из алгоритмов для решения задач — это аддитивная модель прогнозирования временных рядов Prophet, про которую мы писали ранее. В F5 Future считают, что это стабильный и результативный алгоритм, «непривередливый к формату загружаемых данных.
Выводы
Модели прогнозирования, особенно SMA и EMA, активно используются в различных сферах — от медицины до трейдинга. Безусловно, они повышают эффективность компании: благодаря автоматизации расчётов аналитика требует меньше времени. Внедрение моделей временных рядов в компаниях-стартапах может принести ощутимый результат, так как IT-аналитика, отделы продаж и маркетинга работают в тесном сотрудничестве. В крупных компаниях иногда бывает труднее добиться конкретных запросов от других подразделений, и распознавание, например, трендов не даст резкого увеличения продаж или снижения рисков прогнозирования.