Hitech logo

Кейсы

Инженеры Facebook объяснили, что случилось вечером 4 октября

TODO:
Алексей Корецкий5 октября 2021 г., 10:10

Глобальный сбой в работе онлайн-сервисов компании — полностью отключились вчера Facebook, Instagram и WhatsApp — произошел из-за ошибки при обновлении конфигурации магистральных маршрутизаторов. Буквально несколько строк неверного кода почти на семь часов сделали недоступными для интернет-пользователей все сервисы компании. Предположение, что причиной сбоя стала атака на корневые DNS-сервера не подтвердилось — инженеры Facebook признались, что сами допустили ошибку.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Рутинная операция по обновлению конфигурации магистральных маршрутизаторов, которая выполняется в Facebook, вероятно, десятки если не сотни раз в год, привела к разыву связи между ЦОДами компании и выпадению всех ее серверов из глобальной сети.

«Конфигурационные изменения в магистральных маршрутизаторах, которые отвечают за координацию сетевого трафика между нашими центрами обработки данных, привели к проблемам, которые прервали связь. Этот сбой в сетевом трафике оказал каскадное воздействие на способ связи наших центров обработки данных, что привело к тому, что наши службы перестали работать», — говорится на сайте Facebook.

Долгое восстановление было связано с тем, что из строя вышли вообще все сервера FB, включая служебные, которые отвечали за внутренние процессы компании, в том числе контроль допуска сотрудников в офисы и в ЦОДы. В результате в первые два или даже три часа кризиса инженеры FB не могли элементарно попасть к серверам для их ручного перезапуска — система допуска оказалась заблокированной. Затем еще не менее трех часов ушло на то, чтобы исправить ошибку и начать поэтапное восстановление всей упавшей инфраструктуры. 

Марк Цукерберг, как только сервера его компании заработали, извинился перед пользователями за сбой, а вице-президент по инфраструктуре Сантош Джанардхан первым объяснил, что произошло. Собственно, он подтвердил догадки экспертов, сразу предположивших по тому, как развивался каскадный обвал сервисов FB, что дело в ошибке при обновлении магистральных маршрутизаторов. По словам Джанардхана, причиной сбоя стала ошибка в обновлении настроек маршрутизаторов, что привело к падению внутренней магистральной сети — произошел разрыв связи между ЦОДами и одновременно все сервера компании перестали быть видимыми извне. Именно поэтому упало сразу все — и Facebook, и Instagram, и WhatsApp.

Беспрецедентный по своим масштабам сбой вызвал существенное снижение стоимости акций FB на бирже — в пике он достигал 6%. И произошел он в самое неподходящее время — на фоне разгорающегося скандала с разоблачениями внутренней кухни компании со стороны одного из бывших топ-менеджеров FB Фрэнсис Хоген. С момента появления первой статьи «Facebook files» несколько дней назад компания подешевела уже на 18,2%.

Технические проблемы Facebook привели к резкому росту новых регистраций в других мессенджерах — прежде всего в Telegram и Signal. По предварительным данным, за время, пока сервера FB лежали, только в Telegram зарегистрировалось около 50 млн. новых пользователей. Сама компания этих цифр пока не подтвердила, но признала, что серверная инфраструктура мессенджера с трудом выдержала вчера приток новых пользователей.