PRTG помогает предотвращать нештатные ситуации в ИТ-инфраструктуре группы «Мечел»

 

О КОМПАНИИ МЕЧЕЛ

ПАО «Мечел» – одна из ведущих мировых компаний в горнодобывающей и металлургической отраслях. В компанию входят более 20 производственных предприятий. В компании трудятся 60 тысяч человек.

 

«PRTG нас полностью устраивает. Мы получили инструмент для предотвращения аварийных ситуаций и анализа причин сбоев, решение, которое позволило нам повысить отказоустойчивость ИТ-инфраструктуры», – говорит Андрей Кисляков, заместитель директора Департамента ИТ-инфраструктуры ООО «Мечел-БизнесСервис». 

Andrey Kislyakov

 

Ситуация

Поводом к срочному поиску решения для превентивного информирования о возможных сбоях ИТ-инфраструктуры послужила регулярная перезагрузка почтовых серверов в рабочее время, которая мешала пользователям работать, и инцидент, когда в результате сбоя всех трёх прецизионных кондиционеров произошло отключение одного из ЦОДов.

Рассказывает Андрей Кисляков, заместитель директора Департамента ИТ-инфраструктуры ООО «Мечел-БизнесСервис»: «Нам требовался продукт, который помогал бы предотвращать нештатные ситуации и проводить анализ в случае сбоев. Главные критерии – простое с точки зрения установки и настройки решение, с широким функционалом: комплексными датчиками, возможностью SMS-информирования и др. Кроме того, продукт должен был иметь длительную историю работы на рынке и поддержку разработчика».

 

Поиск решения и ход проекта

Специалисты Департамента ИТ-инфраструктуры ООО «Мечел-БизнесСервис» проанализировали рынок систем мониторинга сети, рассматривали как бесплатные, так и платные решения. Тестирование ПО показало, что оптимальным вариантом, отвечающим всем вышеозначенным требованиям, является решение PRTG – функциональный продукт, с простым механизмом заведения датчиков, не требующим программирования. Система стабильно развивается на протяжении многих лет, пользователи решения получают техническую поддержку от вендора.

PRTG отслеживает состояние всех систем, устройств, приложений и трафика. Всё необходимое содержится в одной программе и никакие дополнительные компоненты не требуются. В PRTG есть более 200 типов сенсоров всех стандартных сетевых служб, включая HTTP, SMTP, FTP и т. д. Система предупреждает о возможных проблемах по электронной почте и SMS ещё до того, как пользователи заметят их.

Работы по внедрению решения проводились полностью силами Департамента ИТ-инфраструктуры ООО «Мечел-БизнесСервис». В процессе реализации проекта учитывались потребности каждого администратора.

«Нам пришлось проделать большую работу: заменить датчики WMI на SNMP, продумать логику для некоторых сложных датчиков, реализовать мониторинг значений на основании информации из баз данных», – отмечает Андрей Кисляков.

Производство рельсов на Челябинском металлургическом комбинате

Производство рельсов на Челябинском металлургическом комбинате

Результаты проекта

В настоящий момент ИТ-инфраструктура компании только в Москве включает более 550 устройств, находящихся на мониторинге, а также более 2700 активных датчиков. Система собирает свыше 9000 параметров с широкого спектра объектов: физических и виртуальных серверов, СХД, сетевого оборудования, каналов связи, кондиционеров, UPS, PDU, сертификатов для Citrix Netscaler и мн. др.

«PRTG нас полностью устраивает. Мы получили инструмент для предотвращения аварийных ситуаций и анализа причин сбоев, решение, которое позволило нам повысить отказоустойчивость ИТ-инфраструктуры. Продукт помогает оценивать необходимый объем ресурсов для систем, удобно настраивается, имеет простую схему лицензирования. В настоящий момент мы продолжаем развивать системы мониторинга PRTG на предприятиях группы. Составлены рекомендации для оптимальной настройки и использования решения.

Хочу обратить внимание на важность поддержки со стороны разработчика. Я общался с коллегами из крупной финансовой компании, которые используют бесплатную систему мониторинга. Они самостоятельно настроили мониторинг, но произошел сбой и потребовалось обратиться к разработчику за платной поддержкой. А мы получили подтверждение правильности нашего выбора», – говорит заместитель директора Департамента ИТ-инфраструктуры ООО «Мечел-БизнесСервис».

 

 

Добыча угля на Нерюнгринском разрезе

Добыча угля на Нерюнгринском разрезе

 

 

Работа с PRTG. Рекомендации «из жизни» от группы «Мечел»

В ходе работы над проектом и дальнейшей эксплуатации решения специалисты Департамента ИТ-инфраструктуры ООО «Мечел-БизнесСервис» выработали ряд важных рекомендаций. Вот некоторые из них:

• максимально использовать датчики SNMP, т.к. они потребляют в 10 раз меньше ресурсов, чем датчики WMI;
• проводить мониторинг не только скорости, но и состояния каналов связи;
• называть датчики максимально коротко для экономии места и удобства восприятия информации на экране;
• оповещения по e-mail настраивать на группы устройств, чтобы в дальнейшем снизить вероятность ошибки;
• SMS-оповещения настраивать только на критические датчики, проверять их работу в условиях, максимально приближенных к реальным;
• по критическим параметрам дублировать датчики: температуры, протечки воды;
• для снижения нагрузки на сервере PRTG использовать разные периоды опроса для разных типов датчиков.

PRTG предоставляет готовые датчики мониторинга и шаблоны для создания собственных. Специалисты Департамента ИТ-инфраструктуры ООО «МечелБизнесСервис» имеют большой опыт создания датчиков и представляют несколько примеров собственной разработки:

• Датчик, который отображает зависимость температуры в ЦОДе от того, какой компрессор в каком кондиционере работает в данный момент. С помощью датчика удалось выявить компрессор с частичным отказом и не допустить выход из строя кондиционера в «неподходящее» время. Также по данному параметру можно примерно оценить текущую загрузку кондиционера и запас по холодопроизводительности.
• Датчик, который отображает количество свободных конкурентных лицензий напрямую из баз данных. Благодаря мониторингу свободных лицензий мы сэкономили значительную сумму в связи с высвобождением лицензий.
• Датчик, который отображает количество соединений в базе данных 1С. Это позволяет увидеть реальное количество пользователей, подключенных к базе данных, в пиковый период использования и спрогнозировать нагрузку на каналы передачи данных.

 

 

 

Добыча угля на Эльгинском разрезе

Добыча угля на Эльгинском разрезе