Skip to content

Data lineage (Происхождение данных)

В разделе Data lineage вы имеете возможность проследить путь ваших данных: какие объекты являются для них источниками (восходящие потоки, upstream) и и какие объекты являются потребителями (нисходящие потоки, downstream). Если данная вкладка неактивна, это означает, что происхождение данных для данного объекта не было сконфигурировано при инджестинге.

На данный момент технология автоматизированного извлечение информации о происхождении данных работает для следующих платформ:

  • Postgres (внутренний lineage источника),
  • Oracle (внутренний lineage источника),
  • Greenplum (внутренний lineage источника),
  • SQL Server (внутренний lineage источника).

Настройка, предварительные условия и разрешения

Каждый пользователь Каталога данных с привилегией View Entity Page имеет доступ к полному набору восходящих и нисходящих потоков для объектов.

Страница Details

На странице происхождения данных доступны два типа представления:
1. Details: отображает входящие и выходящие потоки в виде списка,
2. Lineage: предоставляет визуализацию связей между сущностями.

В верхней части экрана указано количество входящих (upstream) и выходящих (downstream) потоков для конкретного объекта. Восходящие потоки представляют собой источники данных для данного поля, а нисходящие показывают, куда данные перемещаются далее. По умолчанию на странице отображается нисходящий поток, чтобы увидеть восходящий поток, выберите соответствующую опцию в фильтре: Downstream или Upstream.

Страница Lineage

Фильтр уровня зависимостей (Degree of Dependencies)

При нажатии на кнопку Filters в левой части экрана появятся фильтры, аналогичные тем, что используются на главной странице Каталога. Фильтр Degree of Dependencies позволяет определять, насколько глубоко вы хотите исследовать взаимосвязи между объектами. Значение по умолчанию составляет 1 и показывает только непосредственно связанные элементы. Для отслеживания более глубоких взаимосвязей установите флажок рядом с уровнем, который вы хотите видеть. Теперь рядом с именем потока будут указаны значения 2nd, соответствующие выбранному уровню.

Фильтр уровня зависимостей

Фильтр Column Lineage

Вы также можете фильтровать потоки по взаимосвязи с полями текущего объекта. Для этого нажмите на Column Lineage и выберите поле из выпадающего списка. После этого потоки будут отфильтрованы по наличию связи с выбранным полем. Например, если вы выбираете поле audit_id, в результатах поиска отобразится объект с дополнительной надписью Upstream column: row_id, что означает, что поле row_id этого восходящего потока является источником для поля audit_id данного объекта.

Фильтр Column Lineage

Также просмотреть потоки отдельных столбцов можно, перейдя на страницу Lineage и выбрав Show Columns, это развернёт значения в колонках.

Фильтр Column Lineage

Фильтр по дате

На странице Details по умолчанию отображается последняя версия lineage, то есть активирован фильтр All Time. Используя этот фильтр, вы можете ограничить видимые потоки, исключив те, что были обновлены за пределами выбранного временного диапазона.

Фильтр по дате

Визуализация Lineage

Для анализа взаимосвязей между потоками данных можно использовать функцию визуализации lineage. Доступ к ней осуществляется двумя способами: через кнопку Visualize Lineage или через элемент Lineage, расположенный в правой части экрана. При активации этих опций вы окажетесь на интерактивной канве, где восходящие потоки будут отображены слева от выбранного объекта, а нисходящие — справа. Стрелки между потоками наглядно демонстрируют направление движения данных. Чтобы вернуться на страницу объекта нажмите Details.

Визуализация Lineage

Чтобы более детально рассмотреть связи между полями, активируйте переключатель Show Columns, который откроет дополнительные сведения о каждом поле.

Переключатель Show Full Titles позволяет отобразить полное имя таблицы для удобства идентификации.

Чтобы увеличить или уменьшить масштаб вы можете использовать кнопки масштабирования (+ и -), расположенные в правой части экрана, что позволяет увеличить или уменьшить масштаб визуализации.

Чтобы просмотреть все потоки для объекта, который находится на канве нажмите на три точки, далее выберите пункт Focus on Entity. Таким образом вы перейдете на страницу этой сущности в раздел Lineage.

Визуализация Lineage

Редактирование потоков данных

Редактировать связи между объектами можно только на уровне таблиц, такие связи будут визуализированы пунктирной линией. Связи на уровне полей таблиц определяются автоматически и не подлежат редактированию пользователем через интерфейс Каталога данных.

Редактирование потоков данных

Чтобы изменить нисходящие потоки для конкретного объекта, нажмите три точки рядом с его именем, выберите опцию Downstream, а затем в открывшемся окне найдите и укажите объекты, которые хотите назначить как потребители данных.

Альтернативно, редактирование потоков данных можно выполнить с страницы Details, нажав на кнопку Edit, расположенную в левой части экрана.

Редактирование потоков данных