Главная | Проекты | Компонент для диагностики и прогнозирования сбоев в системах хранения данных

Компонент для диагностики и прогнозирования сбоев в системах хранения данных

Программно-аппаратный компонент с модельно-диагностическим ПО на базе машинного обучения, предназначенный для выявления внештатных ситуаций и аномального поведения, а также прогнозирования и предотвращения сбоев в системах хранения данных.

Задача

Системы хранения данных (СХД) – один из ключевых элементов IT-инфраструктуры компаний. Сбой при обработке или хранении данных может привести к их повреждению или утере, и нанести владельцу системы серьезный имиджевый или финансовый ущерб.

Задачей разработчиков стало создание модельно-диагностического ПО с использованием алгоритмов машинного обучения с целью своевременного обнаружения аномального поведения системы, которое может привести к неисправности.

Решение

Практическим результатом исследований и разработок стал опытно-промышленный компонент для встраивания в программно-аппаратную архитектуру платформы хранения данных TATLIN для индустриального партнера Лаборатории — ООО «КНС Групп» (YADRO). Завершение работ намечено на конец 2019 года.

Подход основан на машинном обучении и позволяет выявлять аномалии и предсказывать критические ситуации, которые не выявляются интегрированными методами обработки ошибок и сбоев в программном обеспечении и аппаратной среде.

Для обучения алгоритмов использовались как реальные статистические данные о работе различных конфигураций систем хранения данных из продуктового портфеля TATLIN, так и данные, смоделированные при помощи компьютерной программы – имитатора СХД. Система предотвращения сбоев определяет проблемные ситуации, основываясь на совокупности текущих данных мониторинга и результатах прогнозирования.

Разработанное инновационное решение позволит:

  • Предотвратить критические ситуации - деградацию производительности и отказ сервиса записи/чтения данных СХД;
  • Снизить трудозатраты на сбор и обработку данных мониторинга;
  • Сократить сроки обнаружения неисправностей;
  • Оптимизировать стоимость сервисного обслуживания и снизить совокупную стоимость владения СХД;
  • Повысить надежность СХД;
  • Исключить финансовые или репутационные риски компании-владельца из-за потери или недоступности данных.

Детали

С точки зрения диагностики рассматривались три основных типа сбоя для любого компонента СХД: отказ, когда аппаратный компонент больше не выполняет свои функции и нуждается в замене; ошибка, когда он сохраняет частичную работоспособность, и прогнозируемый отказ, когда составляющая системы работает без внешних симптомов сбоя, но проявляет некоторые признаки того, что отказ может произойти. Для диагностирования и прогнозирования возникновения различных типов сбоев на основании данных текущего мониторинга применяются алгоритмы, использующие модели, обученные на наборе накопленных исторических данных о функционировании СХД и алгоритмы выявления аномалий, определяющие отклонение от нормального режима функционирования СХД.

В создании программного комплекса применялись различные методы моделирования, в том числе имитационное и системно-динамическое, с построением онтологических и графовых моделей, а также алгоритмы машинного обучения для решения задач классификации и выявления аномалий.

В составе аппаратно-программного компонента, интегрированного в СХД, данное ПО предсказывает такие критические ситуации, как деградация производительности и отказ сервиса записи/чтения данных, помогает оперативно выявлять неисправности и более эффективно реагировать на них за счет принятия более информированных решений по выбору необходимых мер.

В ходе проекта:

  • Выполнен глубокий анализ предметной области и существующих решений в области диагностики и управления СХД;
  • Произведено имитационное и системно-динамическое моделирование СХД и их отдельных компонентов;
  • Разработан комплекс алгоритмов для диагностики, прогнозирования и предотвращения сбоев;
  • Проведены исследовательские испытания как на имитационном стенде, так и на СХД.

Пакет разработанного программного обеспечения включает в себя следующие основные системы:

  • Программный комплекс предотвращения сбоев, выполняющий задачи по сбору, обработке и интерпретации параметров, описывающих функционирование СХД, диагностированию, прогнозированию и предотвращению сбоев;
  • Программный комплекс имитации функционирования СХД, предназначенный для разработки и отладки имитационных моделей, обучения алгоритмов, основанных на средствах машинного обучения и проведения исследовательских испытаний; имитации функционирования СХД в различных режимах.
  Взаимосвязь компонентов подсистем

Соисполнители:

  • СПбПУ: разработка системно-динамической модели и алгоритмов диагностики и предотвращения возникновения сбоев в СХД; разработка программного обеспечения для диагностики, прогнозирования и предотвращения сбоев в СХД.
  • НИУ ВШЭ: разработка имитационных моделей и алгоритмов диагностики и прогнозирования сбоев в СХД.
  • ООО «КНС Групп»: разработка аппаратной платформы и системного программного обеспечения СХД.
 

Технические преимущества:

  • Повышение эффективности мониторинга параметров СХД;
  • Возможность прогнозировать возникновение неисправностей, определяя наступление предотказного состояния СХД и ее компонентов;
  • Сокращение времени на принятие решения при наличии отказов в процессе функционирования СХД в условиях различных режимов эксплуатации и влияния внешних факторов – температуры воздуха, относительной влажности, давления и вибрации.

Технологии

Языки программирования и фреймворки: Go, C++
OS: Sles 12sp3, Windows 10
Архитектуры: x86, POWER8
CVS: Git
СУБД/БД RocsDb, DGraph
IDE GoLand, Visual Studio Code

РИД

Работа выполняется при финансовой поддержке Министерства науки и высшего образования Российской Федерации в рамках Федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы».

Соглашение о предоставлении субсидии между ФГАОУ ВО «СПбПУ» и Министерством науки и высшего образования Российской Федерации от 03.10.2017 г. № 14.581.21.0023

Уникальный идентификатор – RFMEFI58117X0023

Ключевые исполнители

  • Научный руководитель проекта: М.В. Болсуновская
  • Менеджер проекта:  А.А. Кузьмичёв
  • Руководитель группы разработки: М.Б. Успенский

Индустриальный партнер

ООО «КНС Групп» (YADRO)

Соисполнитель

НИУ «Высшая школа экономики»

Дополнительные материалы

file

Решение для СХД. Видеоролик

АПК для диагностики сбоев СХД Видеопрезентация