ЦОД Microsoft — проблемы с охлаждением в одном из машзалов

Минувшая неделя оказалась «жаркой» для одного из ЦОДов Microsoft. Машины сильно перегрелись, что вызвало сбой в работе веб-сервисов рэдмондовцев. Hotmail и Outlook были офлайн около 16 часов после неудачного обновления программного обеспечения. Оно вызвало резкий всплеск тепловыделений в одном из машзалов центра обработки данных компании Microsoft, который используется для обеспечения работоспособности этих сервисов. Это в свою очередь обернулось множеством нареканий на качество продуктов Microsoft со стороны пользователей электронной почты компании. Проблемы в ЦОД Microsoft также затронули пользователей облачного сервиса Skydrive. Этот сервис служит для хранения медиа-контента и данных.

Температура поднялась быстро. Поэтому специалисты Microsoft не успели задействовать механизм автоматического перехода на резервную схему в случае отказа. Он предназначен для экстренного перераспределения вычислительной нагрузки в разрезе свободной IT-инфраструктуры. Об этом представители компании сообщили через официальный блог Outlook.com.

Представители Microsoft отметили, что проблемы возникли только в одном дата-центре. В нем было решено провести обновление программного обеспечения, которое контролировало физическую инфраструктуру объекта. По словам Артура де Хаана из Microsoft, до того злополучного момента все обновления проходили гладко. Но на этот раз все обернулось «большой неожиданностью».

В официальном сообщении рэдмондовцев не содержится какой-либо конкретной информации касательно вовлеченного в инцидент программного обеспечения или оборудования. Ясно одно: пострадала система охлаждения дата-центра, в результате чего температура в машзалах очень быстро выросла.

Эксплуатация серверного оборудования в ЦОД Microsoft

Нужно отметить, что инженеры компании Microsoft одними из первых стали эксплуатировать серверное оборудование в своих ЦОД при повышенных температурах. Подобная стратегия может обеспечить значительную экономию электроэнергии. В данном случае можно уменьшить интенсивность использования жадных до электроэнергии чиллеров и холодильного оборудования.

Специалисты Microsoft активно работают над усовершенствованием своего программного обеспечения для автоматизации систем контроля за последствиями отказов и перевода нагрузки на доступную IT-инфраструктуру. Но недавний инцидент показал, что работы в данном направлении рэдмондовцам еще хватает. Управление дата-центром – достаточно сложный процесс, и инженерам непросто спрогнозировать все возможные сценарии отказа.

Компания ООО «Тренд Инжиниринг» выполняет работы по проектированию ЦОД. Наши специалисты имеют опыт проектирования ЦОД уровня Tier III. Также мы выполняем сервисное обслуживание инженерной инфраструктуры ЦОД. Это системы вентиляции и кондиционирования, системы бесперебойного электроснабжения. Работы производятся высококвалифицированными специалистами, имеющими большой опыт выполнения работ данных видов. Работы выполняются с точным соблюдением сроков. При этом используется современное оборудование и инструменты. Примеры выполненных работ можно найти в разделе Референс: https://trenden.ru/reference/