Uptime Institute выпустил Annual Outage Analysis 2025 — седьмой ежегодный отчёт о сбоях в ИТ-инфраструктуре и дата-центрах. Главный вывод: аварий в пересчёте на масштаб цифровой инфраструктуры становится меньше, но риски усложняются. Электропитание остаётся главным источником серьёзных простоев, доля ИТ- и сетевых инцидентов выросла до 23%, кибератаки всё чаще приводят к тяжелым последствиям, а человеческий фактор бьет даже по очень хорошо спроектированным системам.
Инцидентов меньше, рисков больше
Uptime Institute фиксирует улучшение четвёртый год подряд: общая частота сбоев и средний уровень их серьёзности снижаются. Это важный сигнал для рынка. Дата-центров, облаков, сетевых сервисов и колокационных площадок становится больше, нагрузка растёт, а относительная аварийность не разгоняется вместе с отраслью.
По мнению исследователей, операторы лучше проектируют резервирование, аккуратнее управляют рисками, чаще используют распределённые архитектуры, строят региональный отказоустойчивый контур и вкладываются в эксплуатационные практики. Uptime Institute отмечает, что прогресс заметен именно на фоне быстрого роста цифровой инфраструктуры.
Но отчёт не даёт повода расслабляться. По оценке Uptime, операторы всё чаще сталкиваются с внешними рисками, которые напрямую не контролируют: ограничениями энергосетей, экстремальными изменения температуры, отказами сетевых провайдеров и проблемами стороннего программного обеспечения.
Электропитание — главный источник тяжелых аварий
Самая стабильная плохая новость — электропитание остается ключевой причиной значимых простоев. Для дата-центра это базовый риск: даже при развитой ИТ-архитектуре отказ питания быстро превращается в отказ сервиса.
Эта проблема особенно заметна сейчас, когда площадки перестраиваются под высокоплотные нагрузки, ИИ-кластеры и рост энергопотребления. Uptime указывает, что спрос на ИИ уже давит на существующие проекты дата-центров, прежде всего по линии питания и охлаждения. Ограничения энергосетей и неопределённость в цепочках поставок могут в будущем повлиять на текущую положительную динамику надёжности.
Для операторов это означает, что отказоустойчивость больше нельзя считать только задачей внутри машинного зала. Надежность объекта всё сильнее зависима от внешней энергосистемы, доступности оборудования, сроков строительства, логистики и качества эксплуатации инженерной инфраструктуры.
ИТ и сети дают все больше значимых сбоев
В 2024 году сбои, связанные с ИТ и сетевой инфраструктурой, составили 23% значимых простоев. Uptime связывает рост с долгосрочным переходом компаний к колокации (размещение серверов в чужих дата-центрах), облакам и другим сторонним сервисам. Аутсорсинг снижает часть рисков для отдельных предприятий, но не отменяет крупных аварий: сбой у провайдера всё равно бьет по бизнесу клиента.
Отдельная причина — усложнение ИТ- и сетевых архитектур. Чем больше распределённых сервисов, облаков, межрегиональных связей, балансировщиков, сетевых политик и автоматизированных изменений, тем выше риск ошибки в управлении. Uptime отмечает, что мисконфигурации и проблемы управления изменениями — один из основных факторов роста ИТ- и сетевых сбоев. То есть вместо физического оборудования всё чаще проблемы скрываются в конфигурации, маршрутизации, программных зависимостях, автоматизации и распределённой отказоустойчивости.
Программная отказоустойчивость добавляет сложности
Uptime отмечает рост роли программных и распределённых механизмов отказоустойчивости. Это региональное переключение, репликация, автоматическое восстановление, балансировка, отказоустойчивые кластеры и другие схемы, которые позволяют сервисам переживать отказ отдельного узла или площадки.
Эти инструменты действительно улучшают доступность. Но у них есть обратная сторона: сложность. Когда физическое резервирование работает вместе с программным, становится труднее понять, кто и где отвечает за отказ. Причина может быть в дата-центре, облачном провайдере, сетевом маршруте, конфигурации приложения, автоматическом failover или ошибке команды эксплуатации.
В итоге разбор первопричины усложняется. А если первопричину сложно классифицировать, то её сложнее исправить. Без точного разбора авария может повториться в другом регионе, у другого провайдера или после следующего обновления.
Человеческий фактор остается одной из основных проблем
Доля сбоев, связанных с человеческой ошибкой из-за несоблюдения процедур, в 2025 году выросла на 10 процентных пунктов по сравнению с 2024 годом.
Почти 40% организаций за последние три года пережили серьезный простой, вызванный человеческой ошибкой. Из этих инцидентов 85% связаны либо с тем, что сотрудники не следовали процедурам, либо с тем, что сами процедуры были неполными или плохо спроектированными.
При этом проблема не сводится к тому, что оператор нажал не ту кнопку. Чаще сбой начинается с ошибок в документации, регламентах, при обучении, проверке изменений или же проблемы кроются в самой культуре эксплуатации. Uptime допускает, что рост таких инцидентов может быть связан с быстрым расширением отрасли и нехваткой квалифицированных сотрудников в ряде регионов.
Команду нужно обучать, понятно прописывать процедуры, следить за выполнением регламентов, регулярно разбирать инциденты, проводить учения.
Киберинциденты становятся тяжелее
Отчет фиксирует рост инцидентов кибербезопасности и подчеркивает, что они часто приводят к тяжелым и длительным последствиям.
Это логично для современной инфраструктуры. Кибератака по дата-центру или цифровому сервису редко ограничивается одним сервером. Она может затронуть учетные записи, системы управления, сетевые политики, резервное копирование, автоматизацию, API, подрядчиков и цепочки поставки ПО. Даже после остановки атаки бизнесу нужно восстановить доверие к среде: проверить конфигурации, секреты, доступы, журналы, резервные копии и целостность систем.
Для ЦОДов и провайдеров это означает, что киберустойчивость становится частью общей доступности. Нельзя отдельно считать SLA по питанию и отдельно — реагирование на взлом. Для клиента результат один: сервис работает или нет.
На провайдеров приходится большинство известных аварий
За девять лет наблюдений Uptime Institute публично известные простои чаще всего приходились на сторонних ИТ-провайдеров и дата-центры: облачных и интернет-гигантов, телеком-операторов и колокационные компании. На них приходится около двух третей таких случаев.
В 2024 году число аварий у цифровых сервис-провайдеров выросло, а у крупнейших облачных и интернет-компаний снизилось. Uptime объясняет это возможным эффектом инвестиций гиперскейлеров в распределенную устойчивость и региональное переключение.
Финансовый сектор, напротив, третий год подряд показывает снижение частоты сбоев относительно долгосрочного среднего уровня с 2020 года. Uptime связывает улучшение с более жестким регулированием и повышенным надзором после крупных публичных аварий, которые происходили до 2021 года.
ИИ может разрушить положительный тренд
Самый важный риск на горизонте — ИИ-нагрузки. Uptime пишет, что быстрый рост спроса на ИИ напрягает существующие мощности дата-центров, особенно в части питания и охлаждения.
Это не только вопрос закупки GPU. ИИ-кластеры требуют других плотности стоек, тепловой модели, схем охлаждения, мощностей электропитания, логистики оборудования и эксплуатации. Если инфраструктура строилась под классические корпоративные нагрузки, попытка быстро посадить на неё высокоплотный ИИ-кластер может создать узкие места там, где они раньше отсутствовали.
Добавляются внешние факторы: ограничения энергосетей, сроки подключения мощности, конкуренция за оборудование, торговые ограничения и нестабильность поставок. Uptime предупреждает, что эти факторы могут в будущем повлиять на устойчивость текущих улучшений в надёжности.
Выводы для операторов и клиентов ЦОДов
Для операторов отчёт Uptime — это чек-лист направлений, где стоит искать слабые места: питание, охлаждение, сетевые зависимости, управление изменениями, процедуры, подготовка персонала, киберустойчивость и работа с подрядчиками.
Для клиентов облаков, колокаций и управляемых сервисов вывод другой: передача инфраструктуры провайдеру не отменяет риск простоя. Нужно понимать архитектуру отказоустойчивости, сценарии регионального переключения, границы ответственности, порядок уведомлений, процесс разбора аварий и реальные зависимости от сетей, DNS, провайдеров и стороннего ПО.
Для финансового сектора, критической инфраструктуры и компаний с высокими требованиями к доступности отчет подтверждает старый принцип: регулирование и жесткий операционный контроль работают, если практикуются, а не остаются в отчетах и документации.