Каковы различия между Data Lineage и Data Trance?

Из wiki,

Линия данных определяется как жизненный цикл данных, который включает в себя источники данных и где он перемещается со временем. В нем описывается, что происходит с данными, поскольку оно проходит через различные процессы. Это помогает обеспечить видимость в конвейере аналитики и упрощает отслеживание ошибок до их источников.

Происхождение данных документирует входы, сущности, системы и процессы, которые влияют на данные, представляющие интерес, фактически предоставляют историческую запись данных и их истоков.

Кажется, что обе концепции говорят о том, откуда берутся данные, но я все еще смущен различиями. Оба понятия одинаковы? Если они разные, может ли кто-нибудь поделиться примером?

Спасибо,

Ответ 1

По нашему опыту, происхождение данных включает только представление на высоком уровне системы для бизнес-пользователей, поэтому они могут ориентироваться в том месте, откуда поступают данные. Он предоставляет множество инструментов моделирования или просто простые пользовательские таблицы и диаграммы. Линия данных является более конкретным термином и включает две стороны - бизнес (данные) и техническую (данные). Бизнес-линии обрабатывают потоки данных на бизнес-уровне и предоставляют решения, такие как Collibra, Alation и многие другие. Линия технических данных создается из фактических технических метаданных и отслеживает потоки данных на самом низком уровне - фактические таблицы, сценарии и утверждения. Техническая линия данных предоставляется такими решениями, как MANTA или Informatica Metadata Manager.

Ответ 2

Данные Provenance есть,

происхождение данных (что такое генеалогия, история его путешествия, где он начался, как он возник, как он изменился с течением времени, где он был, системы, в которых он путешествовал, любые потери или выгоды) (т.е. данные ориентированные, метаданные)

PLUS

входные данные, объекты, системы и процессы, которые влияли на данные (т.е. ориентированные на процессы), которые можно использовать для воспроизведения данных.

Ответ 3

См. Этот раздел в статье Википедии о происхождении: https://en.wikipedia.org/wiki/Provenance#Science. Это ссылки на коллекции академических и отраслевых работ по происхождению.

Чтобы кратко ответить на ваш вопрос: в общем, недостаточно известного контекста, чтобы различать происхождение данных и происхождение данных. В определенном контексте вы можете искать или создавать конкретные и, возможно, другие определения.

Ответ 4

Данные Происхождение является точкой отсчета для термина данных, Data Lineage - это полное путешествие по преобразованию данных от точки отсчета до текущей точки наблюдения в системе.

Ответ 5

Я считаю, что более простое объяснение состоит в том, кому он принадлежит, кто его коснулся и куда он идет.

В деловом смысле это можно обобщить на диаграммах потоков данных.

В техническом смысле, это большой багаж, чтобы начать добавлять данные по мере их поступления из системы в систему. Должно быть какое-то ОГРОМНОЕ оправдание, чтобы нести эту гору и с какой целью? Чтобы увидеть некоторые красивые графики? Не произойдет в больших реальных условиях. Обоснование в $$$ для чего??

Одно дело пометить данные простым 2 - 4-байтовым исходным кодом при его перемещении из системы в систему, но сохранить все эти технические трудности, затраты на снижение производительности системы /dasd/backups/etc. для довольно график? Ни за что....