Крупный сбой Microsoft Azure был вызван простой опечаткой

Крупный сбой Microsoft Azure был вызван простой опечаткой

5 июня 2023 г.

Сбой Microsoft Azure DevOps в регионе Южная Бразилия, который длился более 10 часов, был вызван опечаткой в ​​коде, из-за которой было удалено 17 рабочих баз данных.

Принося извинения пострадавшим клиентам за отключения, Microsoft выпустила полное вскрытие, в котором рассказывается о расследовании, которое проводилось с момента, когда сбой был впервые обнаружен в 12:10 UTC 24 мая, до его устранения в 22:31 UTC того же дня.< /p>

Главный менеджер по разработке программного обеспечения Microsoft Эрик Маттингли поделился сведения об обновлении базы кода, которое стало частью Sprint 222. В запросе на вытягивание была скрытая опечатка в задании на удаление моментального снимка, в результате чего был удален Azure SQL Server, а не отдельная база данных Azure SQL.

Ошибка кодирования

Мэттингли объяснил: «когда задание удалило Azure SQL Server, оно также удалило все семнадцать рабочих баз данных для единицы масштабирования», подтверждая, что никакие данные не были потеряны во время случайного процесса.

Отключение было обнаружено в течение 20 минут, после чего дежурные инженеры компании приступили к работе, однако, согласно журналу событий, основная причина была выявлена ​​в 16:04, почти через четыре часа после начала отключения.< /p>

Microsoft обвинила более чем десятичасовое исправление в том, что клиенты сами не могут восстановить Azure SQL Servers, а также в сложностях резервного копирования и «сложном наборе проблем с [ее] веб-серверами».

Извлекая уроки из своей ошибки, Microsoft не обещала развертывать блокировки Azure Resource Manager для своих ключевых ресурсов, чтобы предотвратить случайное удаление в будущем.

Несмотря на исправление в тот же день, клиенты в регионе остались без доступа к некоторым службам в течение нескольких часов, что подчеркивает, насколько легко что-то может пойти не так, и важно иметь резервные планы, чтобы уменьшить зависимость от отдельных поставщиков услуг, включая облачное хранилище и другую внешнюю инфраструктуру.< /p>

.
Оригинал