Рутинная операция по обновлению конфигурации магистральных маршрутизаторов, которая выполняется в Facebook, вероятно, десятки если не сотни раз в год, привела к разыву связи между ЦОДами компании и выпадению всех ее серверов из глобальной сети.
«Конфигурационные изменения в магистральных маршрутизаторах, которые отвечают за координацию сетевого трафика между нашими центрами обработки данных, привели к проблемам, которые прервали связь. Этот сбой в сетевом трафике оказал каскадное воздействие на способ связи наших центров обработки данных, что привело к тому, что наши службы перестали работать», — говорится на сайте Facebook.
Долгое восстановление было связано с тем, что из строя вышли вообще все сервера FB, включая служебные, которые отвечали за внутренние процессы компании, в том числе контроль допуска сотрудников в офисы и в ЦОДы. В результате в первые два или даже три часа кризиса инженеры FB не могли элементарно попасть к серверам для их ручного перезапуска — система допуска оказалась заблокированной. Затем еще не менее трех часов ушло на то, чтобы исправить ошибку и начать поэтапное восстановление всей упавшей инфраструктуры.
Марк Цукерберг, как только сервера его компании заработали, извинился перед пользователями за сбой, а вице-президент по инфраструктуре Сантош Джанардхан первым объяснил, что произошло. Собственно, он подтвердил догадки экспертов, сразу предположивших по тому, как развивался каскадный обвал сервисов FB, что дело в ошибке при обновлении магистральных маршрутизаторов. По словам Джанардхана, причиной сбоя стала ошибка в обновлении настроек маршрутизаторов, что привело к падению внутренней магистральной сети — произошел разрыв связи между ЦОДами и одновременно все сервера компании перестали быть видимыми извне. Именно поэтому упало сразу все — и Facebook, и Instagram, и WhatsApp.
Беспрецедентный по своим масштабам сбой вызвал существенное снижение стоимости акций FB на бирже — в пике он достигал 6%. И произошел он в самое неподходящее время — на фоне разгорающегося скандала с разоблачениями внутренней кухни компании со стороны одного из бывших топ-менеджеров FB Фрэнсис Хоген. С момента появления первой статьи «Facebook files» несколько дней назад компания подешевела уже на 18,2%.
Технические проблемы Facebook привели к резкому росту новых регистраций в других мессенджерах — прежде всего в Telegram и Signal. По предварительным данным, за время, пока сервера FB лежали, только в Telegram зарегистрировалось около 50 млн. новых пользователей. Сама компания этих цифр пока не подтвердила, но признала, что серверная инфраструктура мессенджера с трудом выдержала вчера приток новых пользователей.