Руководство по аварийному восстановлению ИТ-систем

Современным организациям необходима сложная ИТ-инфраструктура, функционирующая должным образом, чтобы предоставлять товары и услуги с ожидаемым уровнем производительности. Таким образом, потеря важных частей или всей инфраструктуры может поставить организацию на грань исчезновения. Бедствия остаются угрозой для производственных процессов.

Что такое катастрофа?

Катастрофа – это сложная проблема, которая мгновенно переполняет возможности имеющихся человеческих, ИТ-, финансовых и других ресурсов и приводит к значительным потерям ценных активов (например, документов, объектов интеллектуальной собственности, данных или оборудования).

В большинстве случаев стихийное бедствие представляет собой внезапную цепь событий, вызывающих нетипичные угрозы, которые трудно или невозможно остановить после начала стихийного бедствия. В зависимости от типа бедствия организация должна реагировать определенным образом.

Существует три основных типа стихийных бедствий:

Стихийные бедствия
Техногенные и техногенные катастрофы
Гибридные катастрофы

Стихийное бедствие — это первое, что, вероятно, приходит вам на ум, когда вы слышите слово «катастрофа». Различные типы стихийных бедствий включают наводнения, землетрясения, лесные пожары, аномальную жару, сильные снегопады, проливные дожди, ураганы и торнадо, а также морские и океанские штормы.

Техногенная катастрофа — это следствие всего, что связано со сбоями в работе технической инфраструктуры, человеческим фактором или злой волей. Список может включать в себя любую проблему, от сбоя программного обеспечения в организации до проблемы с электростанцией, вызывающей проблемы во всем городе, регионе или даже стране.

Это такие бедствия, как глобальный сбой программного обеспечения, критический сбой оборудования, отключение электроэнергии и любые проблемы с электроснабжением, проникновение вредоносного ПО (включая атаки программ-вымогателей), проблемы с телекоммуникациями (включая изоляцию сети), военные конфликты, террористические акты, прорывы плотин, химические инциденты.

Третья категория, о которой следует упомянуть, описывает смешанные бедствия, объединяющие черты природных и техногенных факторов. Например, прорыв дамбы может вызвать наводнение, что приведет к отключению электроэнергии и проблемам со связью во всем регионе или стране.

Что такое аварийное восстановление?

Аварийное восстановление (DR) — это набор действий (методология), которые организация должна предпринять для восстановления и восстановления операций после глобального разрушительного события. Основные действия по аварийному восстановлению сосредоточены на восстановлении доступа к данным, оборудованию, программному обеспечению, сетевым устройствам, подключениям и источникам питания. Действия по аварийному восстановлению могут также охватывать восстановление логистики, перемещение сотрудников и покупку офисного оборудования в случае повреждения или уничтожения активов.

Чтобы создать план аварийного восстановления, вам необходимо продумать последовательность действий, которые необходимо выполнить в эти периоды:

До катастрофы (создание, обслуживание и тестирование системы и политик аварийного восстановления).
Во время стихийного бедствия (применение немедленных мер реагирования, чтобы избежать или смягчить потери активов).
После аварии (применение системы аварийного восстановления для восстановления работы, связь с клиентами, партнерами и официальными лицами, анализ убытков и эффективности восстановления).

Вот что нужно включить в план аварийного восстановления

Анализ влияния на бизнес и данные оценки рисков

На этом этапе вы изучаете угрозы и уязвимости, типичные и наиболее опасные для вашей организации. Обладая этими знаниями, вы также можете рассчитать вероятность возникновения конкретной аварии, измерить потенциальное воздействие на ваше производство и проще внедрить подходящие решения для аварийного восстановления.

* Цели восстановления: определены RPO и RTO

RPO — это целевая точка восстановления: параметр определяет объем данных, которые вы можете потерять без существенного влияния на производительность. RTO – это целевое время восстановления: максимальное время простоя, которое может выдержать ваша организация, и, следовательно, максимальное время, которое у вас может быть для завершения рабочих процессов восстановления.

* Распределение обязанностей

Команда, знающая обязанности каждого члена в случае аварии, является обязательным компонентом эффективного плана аварийного восстановления. Соберите специальную команду аварийного восстановления, назначьте каждому сотруднику определенные роли и обучите их выполнять свои роли до того, как произойдет настоящая катастрофа. Это способ избежать путаницы и недостающих звеньев, когда требуются реальные действия для сохранения активов и производства организации.

* Создание сайта аварийного восстановления

Авария любого масштаба и характера может нанести серьезный ущерб вашему основному серверу и рабочему офису, что сделает возобновление работы там невозможным или потребует чрезвычайно много времени. В этой ситуации подготовленная площадка аварийного восстановления с репликами критически важных рабочих нагрузок — лучший выбор для минимизации RTO и продолжения предоставления услуг клиентам организации во время и после чрезвычайной ситуации.

* Подготовка к отказоустойчивости

Восстановление после сбоя, то есть процесс возврата рабочих нагрузок обратно на основной сайт, когда основной центр обработки данных снова заработает, можно не учитывать при планировании аварийного восстановления.

Тем не менее, предварительно установив последовательности восстановления после отказа, можно сделать весь процесс более плавным и избежать незначительных потерь данных, которые могли бы произойти в противном случае. Кроме того, имейте в виду, что сайт аварийного восстановления обычно не предназначен для поддержки функционирования вашей инфраструктуры в течение длительного периода времени.

* Удаленное хранилище важных документов и активов

Сегодня даже небольшие организации производят и обрабатывают большое количество важных данных. Потеря печатных копий или цифровых документов может сделать их восстановление трудоемким, дорогим или даже невозможным.

Таким образом, подготовка удаленного хранилища (например, облачного хранилища VPS для цифровых документов и защищенного физического хранилища для бумажных активов) является надежным выбором для обеспечения доступности важных данных в случае аварии.

* Требования к оборудованию отмечены

Этот элемент плана аварийного восстановления требует аудита узлов, обеспечивающих функционирование ИТ-инфраструктуры вашей организации. К ним относятся компьютеры, физические серверы, сетевые маршрутизаторы, жесткие диски, оборудование для облачного размещения серверов и т. д.

Эти знания позволяют просматривать элементы, необходимые для восстановления исходного состояния ИТ-среды после аварии. Более того, вы можете увидеть список оборудования, необходимого для поддержки как минимум критически важных рабочих нагрузок и обеспечения непрерывности производства, когда основной ресурс недоступен.

* Определены каналы связи

Обеспечить стабильную и надежную систему внутренней связи для ваших сотрудников, руководства и команды аварийного восстановления. Установите порядок использования каналов связи для устранения недоступности основного сервера и внутренней сети сразу после аварии.

* Описаны процедуры реагирования

В плане аварийного восстановления первые часы имеют решающее значение. Создавайте пошаговые инструкции о том, как выполнять действия аварийного восстановления, контролировать и проводить процессы, последовательности аварийного переключения, проверку восстановления системы и т. д. конкретное событие может помочь смягчить ущерб.

* Сообщение об инцидентах заинтересованным сторонам

После стихийного бедствия, которое нарушило ваше производство, следует сообщить не только членам команды аварийного восстановления. Вам также необходимо уведомить ключевых заинтересованных лиц, включая вашу маркетинговую команду, сторонних поставщиков, партнеров и клиентов.

В рамках плана аварийного восстановления создайте планы и сценарии, показывающие вашим сотрудникам, как информировать каждую критическую группу о своих проблемах. Кроме того, предварительно созданный базовый пресс-релиз может помочь вам не тратить время впустую во время реального инцидента.

* Тестирование и корректировка плана аварийного восстановления

Успешные организации со временем меняются и расширяются, и их планы аварийного восстановления следует корректировать в соответствии с актуальными потребностями и целями восстановления. Протестируйте свой план сразу после его завершения и выполняйте дополнительное тестирование каждый раз, когда вносите изменения. Таким образом, вы можете измерить эффективность плана аварийного восстановления и обеспечить возможность восстановления ваших активов.

* Применена оптимальная стратегия аварийного восстановления

Стратегия аварийного восстановления может быть реализована самостоятельно (сделай сам) или делегирована стороннему поставщику. Первый вариант — это способ пожертвовать надежностью в пользу экономии, а второй может быть более дорогим, но более эффективным.

Выбор стратегии аварийного восстановления полностью зависит от особенностей вашей организации, включая размер команды, сложность ИТ-инфраструктуры, бюджет, факторы риска и желаемую надежность, среди прочего.

Обзор

Катастрофа — это внезапное разрушительное событие, которое может вывести организацию из строя. Природные, техногенные и гибридные бедствия имеют разный уровень предсказуемости, но их практически невозможно предотвратить на уровне организации. Единственный способ обеспечить безопасность организации — создать надежный план аварийного восстановления, основанный на конкретных потребностях организации.

Ключевые элементы плана аварийного восстановления:

Оценка рисков и анализ последствий
Определенные RPO и RTO
Распределение обязанностей команды аварийного восстановления
Создание сайта аварийного восстановления
Подготовка к отказоустойчивости
Удаленное хранилище
Список оборудования
Налаженные каналы связи
Последовательности немедленных ответов
Инструкции по сообщениям об инцидентах
Тестирование и корректировка аварийного восстановления
Выбор оптимальной стратегии аварийного восстановления

Также опубликовано здесь