Каталог данных
Каталог данных - это система, которая может выполнять в оргазинации роль точки входа для вопросов по данным. Каталог содержит информацию о том, какие данные есть в организации, каковы их характеристики и откуда эти данные можно получить. Каталог данных позволяет проводить поиск по данным, находить связь бизнес-терминов с физическими источниками данных, содержит описание данных, включая информацию о владельцах данных и принадлежности данных какому-либо продукту.
Как работает каталог данных?
Ключевая концепция Каталога данных заключается в извлечении метаданных из источников и их размещении в системе, где пользователи могут легко осуществлять поиск. Эта концепция основана на четырех основных понятиях:
Инджестинг — это процесс создания, настройки, планирования и выполнения пакетного приема метаданных, обеспечивающий эффективное извлечение и загрузку информации.
Источники (Sources) — это системы данных, из которых мы извлекаем метаданные. Примеры таких источников включают BigQuery, MySQL и другие базы данных.
Приемники (Sinks) — места назначения для метаданных, куда они будут отправлены. При настройке приема метаданные передаются в Каталог данных через REST (catalog-sink) приемник.
Рецепты (Recipes) — это конфигурационные файлы формата .yaml, которые связывают источники и приемники. Они служат инструкцией для сценариев приема, указывая, откуда извлекать данные и куда их помещать.
Основные понятия Каталога данных
В данной статье вы можете узнать об основных терминах и понятиях, которые будут использоваться в настоящей документации.
URN (Uniform Resource Name)
URN (Uniform Resource Name) - уникальный идентификатор объектов в Каталоге данных. Он имеет следующую форму: urn:<Namespace>:<Entity Type>:<ID>
Например:
urn:li:container:443386b2fcdb3ba361381a840a9cd9ca
- автоматически сгенерированный urn,urn:li:corpuser:ivanov
- urn с человекочитаемым представлением.
Политика доступа (Policy)
Политика доступа в Каталоге данных определяет, какие пользователи могут совершать определенные действия с определенными объектами.
Роль (Role)
Каталог данных использует Роли для управления разрешениями для пользователей. Роль фактически представляет из себя набор политик доступа. Совокупность политик в Роли определяет права пользователя, обладающего Ролью.
Токен доступа (Personal Access Token)
Токен доступа идентифицирует и авторизует пользователя в Каталоге данных и позволяет использовать API. Благодаря использованию токенов, только авторизованные пользователи могут выполнять операции через API (в т.ч. загрузку метаданных)
Представление (View)
Представление позволяет сохранить (Save as a View) и опубликовать набор фильтров, которые используются при поиске и просмотре объектов в Каталоге данных. Представление может быть публичным или приватным.
Устаревший (Deprecation)
Deprecation - атрибут объекта, который говорит о том, что объект признан устаревшим и данные не являются достоверными. Данный признак является бинарным (да/нет).
Источник данных (Ingestion Source)
Источник данных - система (или часть системы), из которой Каталог данных извлекает метаданные. Например СУБД PostgreSQL, Oracle, Clickhouse.
Контейнер (Container)
Контейнер используется для представления объектов СУБД-источника в Каталоге данных. Представляет те объекты, которые могут содержать в себе какие-либо ещё самостоятельные объекты. Например - база данных (содержит в себе схемы), схема (содержит в себе таблицы), спецификация API (содержит в себе эндпоинты).
Датасет (Dataset)
Датасет используется для представления объектов СУБД-источника в Каталоге данных. Представляет те объекты, которые НЕ могут содержать в себе какие-либо еще самостоятельные объекты. Например - таблица, представление, API эндпоинт.
График (Chart)
График является визуальным представлением данных в BI системе. В Каталоге данных используется для представления объектов BI систем.
Дашборд (Dashboard)
Дашборд - набор графиков в BI системе.
Термин глоссария (Glossary Term)
Термин глоссария - слово или словосочетание, являющееся названием строго определённого понятия какой-либо предметной области.
Группа терминов глоссария (Glossary Term Group)
Группа терминов глоссария - объект, использующийся для логического объединения терминов, имеющий иерархическую структуру. Группа терминов может содержать в себе как термины, так и другие группы терминов.
Тег (Tag)
Тег представляет из себя метку, которая призвана помочь в процессе поиска данных. Может использоваться для "маркировки" объектов в Каталоге данных и объединения их в неформальные группы, без необходимости связи этих объектов с терминами глоссария.
Домены (Domain)
Домен - одна из верхнеуровневых сущностей Каталога данных. Используется для логической группировки объектов. Каждый из объектов системы может относиться к одному домену.
Владелец (Owner)
Владелец - пользователь или группа пользователей Каталога данных, которые "владеют" каким-либо объектом Каталога данных и обладают некоторыми правами по отношению к этим объектам.
Пользователь (Users) (CorpUser)
Пользователь - объект, представляющий в Каталоге данных отдельного сотрудника или техническую учетную запись в организации.
Группа (Groups) (CorpGroup)
Группа - объект, представляющий группу сотрудников и/или технических учетных записей в организации.
Инджестинг (Ingestion)
Инджестинг - процесс создания, настройки, планирования и выполнения пакетного приема метаданных.
Источники (Sources)
Источники (Sources) - системы данных, из которых мы извлекаем метаданные, называются источниками.
Приемники (Sinks)
Приемники (Sinks) - это места назначения метаданных. При настройке приема вы будете отправлять метаданные в Каталог данных через REST (catalog-rest) приемник.
Рецепты (Recipes)
Рецепты (Recipes) - это основной конфигурационный файл, который объединяет источники и приемники воедино. Он сообщает сценариям приема, откуда извлекать данные (источник) и куда их помещать (приемник).
Технология источника данных (Data Platform)
Технология источника данных - тип источника, который поддерживается Каталогом данных. Список технологий источников данных, поддерживаемых Каталогом данных:
- Postgres
- MySQL
- SQL Server
- Hive
- Greenplum
- Oracle
- Clickhouse
- OpenAPI
- Elasticsearch (v.7 и выше)
- S3
- Superset
- MariaDB
- MongoDB
- Cassandra
- CockroachDB