Решение для СХД. Видеоролик
АПК для диагностики сбоев СХД ВидеопрезентацияКомпонент для диагностики и прогнозирования сбоев в системах хранения данных
Программно-аппаратный компонент с модельно-диагностическим ПО на базе машинного обучения, предназначенный для выявления внештатных ситуаций и аномального поведения, а также прогнозирования и предотвращения сбоев в системах хранения данных.
Задача
Системы хранения данных (СХД) – один из ключевых элементов IT-инфраструктуры компаний. Сбой при обработке или хранении данных может привести к их повреждению или утере, и нанести владельцу системы серьезный имиджевый или финансовый ущерб.
Задачей разработчиков стало создание модельно-диагностического ПО с использованием алгоритмов машинного обучения с целью своевременного обнаружения аномального поведения системы, которое может привести к неисправности.
Решение
Практическим результатом исследований и разработок стал опытно-промышленный компонент для встраивания в программно-аппаратную архитектуру платформы хранения данных TATLIN для индустриального партнера Лаборатории — ООО «КНС Групп» (YADRO). Завершение работ намечено на конец 2019 года.
Подход основан на машинном обучении и позволяет выявлять аномалии и предсказывать критические ситуации, которые не выявляются интегрированными методами обработки ошибок и сбоев в программном обеспечении и аппаратной среде.
Для обучения алгоритмов использовались как реальные статистические данные о работе различных конфигураций систем хранения данных из продуктового портфеля TATLIN, так и данные, смоделированные при помощи компьютерной программы – имитатора СХД. Система предотвращения сбоев определяет проблемные ситуации, основываясь на совокупности текущих данных мониторинга и результатах прогнозирования.
Разработанное инновационное решение позволит:
- Предотвратить критические ситуации - деградацию производительности и отказ сервиса записи/чтения данных СХД;
- Снизить трудозатраты на сбор и обработку данных мониторинга;
- Сократить сроки обнаружения неисправностей;
- Оптимизировать стоимость сервисного обслуживания и снизить совокупную стоимость владения СХД;
- Повысить надежность СХД;
- Исключить финансовые или репутационные риски компании-владельца из-за потери или недоступности данных.
Детали
С точки зрения диагностики рассматривались три основных типа сбоя для любого компонента СХД: отказ, когда аппаратный компонент больше не выполняет свои функции и нуждается в замене; ошибка, когда он сохраняет частичную работоспособность, и прогнозируемый отказ, когда составляющая системы работает без внешних симптомов сбоя, но проявляет некоторые признаки того, что отказ может произойти. Для диагностирования и прогнозирования возникновения различных типов сбоев на основании данных текущего мониторинга применяются алгоритмы, использующие модели, обученные на наборе накопленных исторических данных о функционировании СХД и алгоритмы выявления аномалий, определяющие отклонение от нормального режима функционирования СХД.
В создании программного комплекса применялись различные методы моделирования, в том числе имитационное и системно-динамическое, с построением онтологических и графовых моделей, а также алгоритмы машинного обучения для решения задач классификации и выявления аномалий.
В составе аппаратно-программного компонента, интегрированного в СХД, данное ПО предсказывает такие критические ситуации, как деградация производительности и отказ сервиса записи/чтения данных, помогает оперативно выявлять неисправности и более эффективно реагировать на них за счет принятия более информированных решений по выбору необходимых мер.
В ходе проекта:
- Выполнен глубокий анализ предметной области и существующих решений в области диагностики и управления СХД;
- Произведено имитационное и системно-динамическое моделирование СХД и их отдельных компонентов;
- Разработан комплекс алгоритмов для диагностики, прогнозирования и предотвращения сбоев;
- Проведены исследовательские испытания как на имитационном стенде, так и на СХД.
Пакет разработанного программного обеспечения включает в себя следующие основные системы:
- Программный комплекс предотвращения сбоев, выполняющий задачи по сбору, обработке и интерпретации параметров, описывающих функционирование СХД, диагностированию, прогнозированию и предотвращению сбоев;
- Программный комплекс имитации функционирования СХД, предназначенный для разработки и отладки имитационных моделей, обучения алгоритмов, основанных на средствах машинного обучения и проведения исследовательских испытаний; имитации функционирования СХД в различных режимах.
Соисполнители:
- СПбПУ: разработка системно-динамической модели и алгоритмов диагностики и предотвращения возникновения сбоев в СХД; разработка программного обеспечения для диагностики, прогнозирования и предотвращения сбоев в СХД.
- НИУ ВШЭ: разработка имитационных моделей и алгоритмов диагностики и прогнозирования сбоев в СХД.
- ООО «КНС Групп»: разработка аппаратной платформы и системного программного обеспечения СХД.
Технические преимущества:
- Повышение эффективности мониторинга параметров СХД;
- Возможность прогнозировать возникновение неисправностей, определяя наступление предотказного состояния СХД и ее компонентов;
- Сокращение времени на принятие решения при наличии отказов в процессе функционирования СХД в условиях различных режимов эксплуатации и влияния внешних факторов – температуры воздуха, относительной влажности, давления и вибрации.
Технологии
Языки программирования и фреймворки: | Go, C++ |
OS: | Sles 12sp3, Windows 10 |
Архитектуры: | x86, POWER8 |
CVS: | Git |
СУБД/БД | RocsDb, DGraph |
IDE | GoLand, Visual Studio Code |
РИД
Публикации
Работа выполняется при финансовой поддержке Министерства науки и высшего образования Российской Федерации в рамках Федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы».
Соглашение о предоставлении субсидии между ФГАОУ ВО «СПбПУ» и Министерством науки и высшего образования Российской Федерации от 03.10.2017 г. № 14.581.21.0023
Уникальный идентификатор – RFMEFI58117X0023
Ключевые исполнители
- Научный руководитель проекта: М.В. Болсуновская
- Менеджер проекта: А.А. Кузьмичёв
- Руководитель группы разработки: М.Б. Успенский