Data lineage (Происхождение данных)
В разделе Data lineage вы имеете возможность проследить путь ваших данных: какие объекты являются для них источниками (восходящие потоки, upstream) и и какие объекты являются потребителями (нисходящие потоки, downstream). Если данная вкладка неактивна, это означает, что происхождение данных для данного объекта не было сконфигурировано при инджестинге.
На данный момент технология автоматизированного извлечение информации о происхождении данных работает для следующих платформ:
- Postgres (внутренний lineage источника),
- Oracle (внутренний lineage источника),
- Greenplum (внутренний lineage источника),
- SQL Server (внутренний lineage источника).
Настройка, предварительные условия и разрешения
Каждый пользователь Каталога данных с привилегией View Entity Page имеет доступ к полному набору восходящих и нисходящих потоков для объектов.
Страница Details
На странице происхождения данных доступны два типа представления:
1. Details: отображает входящие и выходящие потоки в виде списка,
2. Lineage: предоставляет визуализацию связей между сущностями.
В верхней части экрана указано количество входящих (upstream) и выходящих (downstream) потоков для конкретного объекта. Восходящие потоки представляют собой источники данных для данного поля, а нисходящие показывают, куда данные перемещаются далее. По умолчанию на странице отображается нисходящий поток, чтобы увидеть восходящий поток, выберите соответствующую опцию в фильтре: Downstream или Upstream.
Фильтр уровня зависимостей (Degree of Dependencies)
При нажатии на кнопку Filters в левой части экрана появятся фильтры, аналогичные тем, что используются на главной странице Каталога. Фильтр Degree of Dependencies позволяет определять, насколько глубоко вы хотите исследовать взаимосвязи между объектами. Значение по умолчанию составляет 1 и показывает только непосредственно связанные элементы. Для отслеживания более глубоких взаимосвязей установите флажок рядом с уровнем, который вы хотите видеть. Теперь рядом с именем потока будут указаны значения 2nd, соответствующие выбранному уровню.
Фильтр Column Lineage
Вы также можете фильтровать потоки по взаимосвязи с полями текущего объекта. Для этого нажмите на Column Lineage и выберите поле из выпадающего списка. После этого потоки будут отфильтрованы по наличию связи с выбранным полем. Например, если вы выбираете поле audit_id, в результатах поиска отобразится объект с дополнительной надписью Upstream column: row_id, что означает, что поле row_id этого восходящего потока является источником для поля audit_id данного объекта.
Также просмотреть потоки отдельных столбцов можно, перейдя на страницу Lineage и выбрав Show Columns, это развернёт значения в колонках.
Фильтр по дате
На странице Details по умолчанию отображается последняя версия lineage, то есть активирован фильтр All Time. Используя этот фильтр, вы можете ограничить видимые потоки, исключив те, что были обновлены за пределами выбранного временного диапазона.
Визуализация Lineage
Для анализа взаимосвязей между потоками данных можно использовать функцию визуализации lineage. Доступ к ней осуществляется двумя способами: через кнопку Visualize Lineage или через элемент Lineage, расположенный в правой части экрана. При активации этих опций вы окажетесь на интерактивной канве, где восходящие потоки будут отображены слева от выбранного объекта, а нисходящие — справа. Стрелки между потоками наглядно демонстрируют направление движения данных. Чтобы вернуться на страницу объекта нажмите Details.
Чтобы более детально рассмотреть связи между полями, активируйте переключатель Show Columns, который откроет дополнительные сведения о каждом поле.
Переключатель Show Full Titles позволяет отобразить полное имя таблицы для удобства идентификации.
Чтобы увеличить или уменьшить масштаб вы можете использовать кнопки масштабирования (+ и -), расположенные в правой части экрана, что позволяет увеличить или уменьшить масштаб визуализации.
Чтобы просмотреть все потоки для объекта, который находится на канве нажмите на три точки, далее выберите пункт Focus on Entity. Таким образом вы перейдете на страницу этой сущности в раздел Lineage.
Редактирование потоков данных
Редактировать связи между объектами можно только на уровне таблиц, такие связи будут визуализированы пунктирной линией. Связи на уровне полей таблиц определяются автоматически и не подлежат редактированию пользователем через интерфейс Каталога данных.
Чтобы изменить нисходящие потоки для конкретного объекта, нажмите три точки рядом с его именем, выберите опцию Downstream, а затем в открывшемся окне найдите и укажите объекты, которые хотите назначить как потребители данных.
Альтернативно, редактирование потоков данных можно выполнить с страницы Details, нажав на кнопку Edit, расположенную в левой части экрана.