Разработка решения для мониторинга и прогнозирования сбоев в работе и деградации производительности СХД TATLIN

 1073

Проект: "Разработка аппаратно-программного комплекса для прогнозирования сбоев в работе системы хранения данных с целью предотвращения критических ситуаций, в том числе деградации производительности, отказа сервиса записи/чтения данных и потери данных"

Работа выполняется при финансовой поддержке Министерства науки и высшего образования Российской Федерации в рамках Федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы».

Соглашение о предоставлении субсидии между ФГАОУ ВО «СПбПУ» и Министерства науки и высшего образования Российской Федерации от 03.10.2017 г. № 14.581.21.0023

Уникальный идентификатор – RFMEFI58117X0023


Научный руководитель проекта: к.т.н., доц. М. В. Болсуновская ФГАОУ ВО «СПбПУ», заведующий лабораторией

Менеджер проекта: Андрей Кузьмичёв

Руководитель группы разработки: Михаил Успенский

Научная группа: Более 30 сотрудников: программисты-разработчики, инженеры, алгоритмисты, технические писатели и др.

Период выполнения: 03.10.2017 - 30.06.2020

 

В эпоху больших данных крупные компании строят свой бизнес на принятии решений на основе анализа накопленных данных. Системы хранения данных (СХД) часто являются критическим элементом IT-инфраструктуры компаний. Любой сбой при обработке или хранении данных может повлечь за собой убытки и риски.

Для обеспечения надежности функционировании СХД используются различные интегрированные методы мониторинга и обработки ошибок и сбоев в программном обеспечении и аппаратной среде. Однако, на практике при эксплуатации сложных комплексов СХД возникают аномальные ситуации, не связанные с конкретной ошибкой или сбоем, но приводящие к серьезным последствиям. Теоретически вопрос прогнозирования сбоев в работе СХД рассматривается в большом количестве публикаций, не предлагающих реализацию конкретных решений. Данный проект предлагает конкретный подход к решению задачи отслеживания состояний и прогнозирования сбоев в работе СХД.


 Цель проекта

Создание совместно с партнерами ООО «КНС групп» (компания YADRO) и ФГАОУ ВО НИУ ВШЭ модельно-диагностического ПО на базе машинного обучения, позволяющее выявлять внештатные ситуации и аномальное поведение, а также прогнозировать сбои в системах хранения данных. Разработка компонента для использования в СХД TATLIN компании YADRO.


 Подход и новизна

Используемый подход основан на машинном обучении и позволит выявлять аномалии и предсказывать критические ситуации, которые не выявляются интегрированными методами обработки ошибок и сбоев в программном обеспечении и аппаратной среде.

Применение методов машинного обучения на основных этапах проекта:

  • Гибридный подход к обучению алгоритмов прогнозирования: использование реальных данных о работе СХД TATLIN и данных, смоделированных при помощи компьютерной программы – имитатора СХД.
  • Применение алгоритмов, полученных в п.1 для диагностирования, выявления внештатных ситуаций и прогнозирования сбоев в СХД.

Описание проекта

В ходе проекта, запланированного на 2017-2019гг., будет создано решение для диагностики и прогнозирования сбоев в работе СХД TATLIN, в том числе деградации производительности, отказа сервиса записи/чтения данных и потери данных.

Решение будет состоять из четырех ключевых модулей:

Модуль сбора и накопления данных о состояниях СХД в целом и ее компонентов Модуль имитации функционирования СХД Модуль настройки параметров имитации СХД Модуль диагностики и прогнозирования сбоев
Задачей модуля является сбор максимального количества характеристик работы СХД для наиболее точного прогнозирования. Задачей модуля является моделирование поведения и взаимодействия компонентов системы для получения полных и достоверных тренировочных данных о ее работе в различных режимах. Задачей модуля является подстройка параметров симулятора для обеспечения максимального соответствия реальным характеристикам СХД. Задачей модуля является установление зависимостей между измеряемыми характеристиками и сбоями. Результатом которых может стать отказ, или недоступность того или иного компонента СХД.

Разрабатываемое инновационное решение позволит предотвратить возникновение критических ситуаций, таких как: деградация производительности, отказ сервиса записи/чтения данных, а также повысить уровень надежности СХД TATLIN, снизить совокупную стоимость владения системой, сократить возможные издержки, связанные с потерей или недоступностью данных компании.


 Сотрудничество

  • ООО «КНС групп» предоставляет систему хранения данных TATLIN собственной разработки в пяти различных конфигурациях, разрабатывает и создает стенд для испытаний АПК прогнозирования сбоев СХД;
  • Лаборатория "ПроСПОД"  создает программный компонент для сбора и систематизации реальных данных о работе СХД, разрабатывает алгоритм по предотвращению возникновения сбоев, встраивает созданное в рамках проекта решение для мониторинга и прогнозирования сбоев в работе и деградации производительности СХД в YADRO TATLIN;
  • ФГАОУ ВО НИУ ВШЭ разрабатывает инфраструктуру для диагностики и предсказания сбоев, создает цифровой двойник СХД, при помощи которого моделирует различные состояния здоровья СХД и формирует дополнительные тренировочные данные, создает и настраивает алгоритмы диагностики и предсказания состояний здоровья СХД на основе подходов машинного обучения.

Этапы реализации проекта

Работы по проекту выполняются в соответствии с утвержденным Министерством науки и высшего образования РФ планом-графиком исполнения обязательств по теме «Разработка аппаратно-программного комплекса для прогнозирования сбоев в работе системы хранения данных с целью предотвращения критических ситуаций, в том числе деградации производительности, отказа сервиса записи/чтения данных и потери данных»

 I Этап   (03.10.2017-31.12.2017) - Исполнен

 II Этап  (01.01.2018-31.12.2018)

 III Этап (01.01.2019-31.12.2019)

 IV Этап - подведение итогов реализации проекта (01.01.2020-30.06.2020) 


Компетенции

  • Проведение предпроектного анализа;
  • Разработка математических моделей;
  • Разработка прикладного ПО;
  • Получение патентов на полезную модель и программы ЭВМ.

Технологии

Языки программирования и фреймворки Go, C++
OS Sles 12sp3, Windows 10
Архитектуры X86, POWER8
CVS Git
СУБД/БД RocksDb
IDE GoLand, Visual Studio Code 

 Публикации

2018


Мероприятия

В процессе реализации проекта сотрудники приняли участие в следующих мероприятиях по демонстрации и популяризации результатов и достижений науки.

Наименование мероприятия Дата проведения мероприятия  Наименование организатора мероприятия
IV Международная научная конференция «Конвергенция цифровых и физических миров: технологические, экономические и социальные вызовы» Россия, Санкт-Петербург 16–18
Мая 2018
 СПбПУ
XXII Международная Научно-Практическая Конференция "Системный анализ в проектировании и управлении" (SAEC-2018)
Россия, Санкт-Петербург
22–24
Мая 2018
 СПбПУ
XXI Международная конференция по мягким вычислениям и измерениям
Россия, Санкт-Петербург
23–25
Мая 2018
 СПбГЭТУ «ЛЭТИ»
III Международная конференция «ЭРГО 2018: Человеческий фактор в сложных технических системах и средах».
Россия, Санкт-Петербург
4-7
Июля 2018
 СПбГЭТУ «ЛЭТИ»
XIX Международная специализированная выставка «Автоматизация 2018»
Россия, Санкт-Петербург, КВЦ
"ЭКСПОФОРУМ"
18-20
Сентября 2018
 ГРУППА КОМПАНИЙ «ФАРЭКСПО»
XVII Всероссийская научно-практическая конференция «Планирование и обеспечение подготовки кадров для промышленного-экономического комплекса региона»
Россия, Санкт-Петербург
14-15
Ноября 2018
 СПбГЭТУ «ЛЭТИ»

«Неделя науки СПбПУ» DTMIS-2018: Международная научная конференция "Цифровая трансформация производства, инфраструктуры и сервиса"
Россия, Санкт-Петербург

19-22
Ноября 2018
 СПбПУ