Так бывает, когда на прод попадает не до конца протестированный релиз
Накануне, 12 июня 2025 года, интернет охватил масштабный сбой: из-за ошибки в сервисе аутентификации Google Cloud (IAM) перестали работать десятки продуктов — от Gmail и Drive до Cloudflare и Anthropic.
Проблема длилась более семи часов и показала, насколько уязвимы современные цифровые экосистемы.
Что произошло
В 20:50 по московскому времени в системе IAM Google Cloud начались сбои. Этот сервис отвечает за проверку доступа и выдачу токенов всем API.
Когда IAM перестал справляться с запросами, это затронуло почти все остальные сервисы GCP — от хранилищ и баз данных до ИИ-сервисов.
Хронология событий
- 20:51 — внутренние алерты Google: IAM возвращает ошибки 5xx
- 21:05 — на DownDetector резко растут жалобы на Gmail, Drive и Meet
- 21:19 — Cloudflare сообщает о сбоях в Access
- 21:25 — Anthropic отключает загрузку файлов, чтобы снизить нагрузку
- 22:41 — Google внедряет исправления в IAM, большая часть регионов восстанавливается
- 23:30 — Cloudflare восстанавливает работу Access, KV и WARP
- 00:05 — Anthropic сообщает о полном восстановлении Claude
- 04:18 — полное восстановление сервисов GCP, включая Vertex AI
Причины сбоя
Google подтвердила, что сбой произошел из-за некорректного обновления бэкенда IAM. Обновление попало в продакшен раньше, чем его смогли отловить тесты в ограниченных зонах.
Ошибка распространилась по всем регионам, и только откат, удаление некорректной конфигурации и принудительное обновление кэша токенов помогли восстановить систему.
Уроки для разработчиков
Произошедшее показало, что сбои в control-plane (аутентификация, метаданные) опаснее сбоев в data-plane (файлы, запросы). Также стало более явно, что даже multi-cloud архитектуры могут зависеть от одного слабого звена в глубине стека.
Из прочих уроков аварии можно отметить:
- Страницы статуса должны обновляться оперативно — Google потребовался почти час
- Необходимы обходные маршруты для критичных точек (например, авторизации)
- План реагирования должен включать редкие, но возможные каскадные сбои
Итоги
Ошибка в одном компоненте Google Cloud вызвала сбои в десятках сервисов по всему миру. В течение семи часов компании теряли доступ к данным, пользователи не могли авторизоваться, а инженеры — найти причины проблемы.
Полный отчет от Google и Cloudflare пока в разработке. Но уже ясно, что даже самые крупные игроки не застрахованы от сбоя, если в центре — непротестированное обновление и скрытые зависимости.