Может кто-нибудь объяснить объяснение данных, SSIS, BI, ETL и других связанных технологий?

Вчера я разговаривал с коллегой о ситуации, когда он использовал SSIS (или что-то в этом роде), чтобы сделать что-то действительно классное в пакете SSIS, где он передал имя, вроде "Доктор Реджинальд Уильямс, доктор философии." и на основе некоторой схемы взвешивания система была достаточно умна, чтобы понять, как ее токенизировать и хранить в базе данных как "Приветствие - Имя - Фамилия - Суффикс". Он выбросил некоторые ключевые слова, такие как BI, SSIS, ETL и Data mining. Я действительно хотел получить больше информации, но даже не знал, с чего начать спрашивать.

Я разработчик .Net и тщательно разбираюсь в С#, Vb.Net, WPF и т.д., но я понятия не имею, что такое эти технологии, как добавить их в мой набор навыков и независимо от того, это то, на что я действительно должен сосредоточиться. Любое направление было бы полезно.

Ответ 1

SSIS == Службы интеграции SQL Server и инструмент извлечения и преобразования извлечения (ETL), это намного более эффективная реализация того, что было Data Transformation Services или DTS в SQL7, SQL2K. Это отличный инструмент для выражения процессов документооборота, в котором данные перемещаются из точки A в точку B (и c и d и т.д.) И претерпевают изменения в этом процессе, такие как консолидация, к денормализованной конструкции или очистке данных.

BI или Business Intelligence - это прозвище для всей категории в технологическом мире, и сейчас это отличное место. Знания BI очень ценятся и труднодоступны, одна из причин, по которой это происходит, заключается в том, что трудно воссоздать истинный бизнес-анализ в лаборатории, поэтому преподавание почти всегда выполняется в реальной ситуации.

На высоком уровне проекты BI обычно включают конечную точку отчетности. Часто, как разработчики, мы привыкли к написанию отчетов о транзакциях, таких как детали PO, но BI может получить очень широкие отчеты, которые охватывают тенденции продаж продуктов в течение десятилетий и обрабатывают сотни миллионов записей. То, как мы разрабатываем базы данных для приложений, не идеально подходит для такого рода отчетов, поэтому были изобретены другие инструменты и технологии и используются в пространстве BI. Это такие вещи, как кубы, которые вы часто слышите, называемые кубиками OLAP. Кубы OLAP обычно исходят из хранилища данных, который является не чем иным, как другой базой данных, но типичные склады содержат данные, которые поступают из более чем одного, а часто и десятки других баз данных приложений. Приложение инвентаря, приложение для покупки, приложение для управления персоналом и целая группа других содержат биты и фрагменты данных, которые создают полную картину бизнеса. Архитектор BI будет использовать что-то вроде SSIS, чтобы извлекать данные из всех этих систем, массировать их и хранить его в хранилище данных, который разработан с другим видом дизайна, лучше для отчетности. Как только он появится на складе, он будет использовать службы Analysis для создания кубов на этих данных и что-то вроде Reporting Services, чтобы показать вам отчеты по этим данным.

Изменить: извините, забыл Data Mining, это еще один неспецифический термин, который описывает и концепцию, или процесс, и не столько инструмент. В простом примере это методический подход к идентификации шаблонов в данных. В прошлом хороший анализ бизнеса просматривал данные по тенденциям, но с современными базами данных вы говорите о слишком больших наборах данных, чтобы вручную расчесывать - интеллектуальный анализ данных позволяет вам поручить компьютеру расчесывать эти данные и идентифицировать интересующие вас шаблоны.

Надеюсь, что поможет

Ответ 2

То, что сделал ваш коллега, может быть лучше описано как "интеллектуальный синтаксический разбор" строки. Это можно сделать на многих уровнях сложности - например, используя статистические модели, чтобы дать вам вероятность того, что "Доктор", это приветствие, а не имя. Или он может просто использовать простой список поиска общих приветствий, и в этом случае это просто обычный процедурный код, не более того.

SSIS не подходит для служб интеграции SQL Server. Это в основном DTS на стероидах; некоторым нравится это, и некоторые люди ненавидят его. Было бы сложно использовать это самостоятельно, чтобы делать то, о чем вы говорите; это в основном только для сбора данных из разных источников и их объединения, преобразования и загрузки в другое место. Он может делать некоторые изящные вещи, многие из которых, как правило, занимаются добычей данных, но в конечном итоге это производственный инструмент для кодирования данных в том или ином направлении. Это не особенно хорошо соблюдается в сообществе интеллектуального анализа данных.

Data Mining - это целая академическая дисциплина, ориентированная на использование некоторого (обычно большого) количества данных для прогнозирования будущих ответов или лучшего понимания шаблонов в существующих данных. Это определенно отличная область, в которую можно попасть, но не то, что вы можете просто подобрать и обойтись без интенсивного изучения математики и алгоритмов. Хорошая книга по теме этот.

"Бизнес-аналитика" на самом деле скорее является модным словом, чем конкретной технологией, и может означать разные вещи для разных людей. В основе идея предполагает сделать менее тупой материал с бизнес-данными, и в целом это относится к анализу тенденций с течением времени, часто используя OLAP. Он также может включать в себя алгоритмы интеллектуального анализа данных или AI, но, поскольку нет строгого определения, кто-то, кто хочет продать вам что-то, скажет вам, что он предлагает "Business Intelligence", и надеюсь, что вы не будете копать дальше.

Ответ 3

SSIS Службы интеграции SQL Server и полезен для выполнения ETL (Extract, Transform и Load), которые являются интерфейсом многие хранилища данных /бизнес-аналитика, которые интегрируют данные в простые в использовании модели размеров. SSIS также полезен для небольших проектов в качестве удобного способа загрузки устаревших данных или данных из других репозиториев или файлов.

Data mining обычно подразумевает использование данных из интегрированных источников для вывода информации, которая не была бы очевидна из транзакционных данных (посредством интеграции несколько источников, дающих больше "размеров" для данных.

BI - это огромная тема, поэтому не стоит сосредотачиваться на ней, если вы не хотите попасть в эту область, но SSIS может быть полезен для небольших проектов и заслуживает изучения в любом случае.

Ответ 4

Причиной всех этих "новых" терминов является на самом деле быстрое (экспоненциальное) увеличение данных в мире. BI (Wikipage) тесно связан с термином "хранилище данных" (это центральный объект в BI-процессах), а также с термином "Data Mining".
Подробнее о ETL. Я бы добавил, что SSIS является продуктом Microsoft, но есть десятки других инструментов ETL, наиболее известными являются: Informatica, Pentaho, IBM Infosphere Information Server, Oracle Data Integrator и Talend и т.д. ETL также часто пишутся любой язык программирования (мы имели их в Python и даже в Голанге).