Я начинаю изучать некоторые вещи о больших данных с большим вниманием к интеллектуальному анализу, и для этого у меня есть тематическое исследование, которое я хотел бы реализовать:
У меня есть набор данных о состоянии работоспособности серверов, который обрабатывается каждые 5 секунд. Я хочу показать данные, которые извлекаются, но что более важно: я хочу запустить ранее разработанную модель машинного обучения и показать результаты (предупреждение о сбоях сервера).
Модель машинного обучения будет построена специалистом по компьютерному обучению, чтобы полностью выйти за рамки. Моя задача состояла бы в том, чтобы интегрировать модель машинного обучения на платформе, которая запускает модель, и показывает результаты в приятной панели.
Моя проблема заключается в архитектуре "большой картины" этой системы: я вижу, что все части уже существуют (cloudera + mahout), но мне не хватает простого интегрированного решения для всех моих потребностей, и я не считаю, что состояние искусства делает какое-то пользовательское программное обеспечение...
Итак, может ли кто-нибудь пролить свет на такие производственные системы, как это (показывая данные с интеллектуальным анализом)? Эталонная архитектура для этого? Учебники/документация?
Примечания:
-
Я изучил некоторые связанные технологии: cloudera/hadoop, pentaho, mahout и weka. Я знаю, что Pentaho, например, может хранить большие данные и запускать специальный анализ Weka по этим данным. Используя cloudera и Impala, специалист по данным может также запускать специальные запросы и анализировать данные, но это не моя цель. Я хочу, чтобы моя система запускала модель ML и показывала результаты в хорошей информационной панели рядом с полученными данными. И я ищу платформу, которая уже позволяет это использование вместо пользовательского построения.
-
Я сосредотачиваюсь на Pentaho, поскольку у него хорошая интеграция Machine Learning, но каждый учебник, который я прочитал, был больше посвящен "ad-hoc" анализу ML, чем в реальном времени. Любой учебник по этому вопросу будет приветствоваться.
-
Я не возражаю против открытых или коммерческих решений (с пробной версией)
-
В зависимости от специфики, возможно, это не большие данные: приветствуются более "традиционные" решения.
-
Также в реальном времени речь идет о широком члене: если модель ML имеет хорошую производительность, ее каждые 5 секунд достаточно хороши.
-
Модель ML статична (не обновляется в реальном времени или не изменяет ее поведение)
-
Я не ищу индивидуальное приложение для своего примера, поскольку основное внимание уделяю большой картине: большие данные с интеллектуальными анализами общих платформ.