Датасеты (Datasets)
Датасет используется для представления объектов СУБД-источника в Каталоге данных. Представляет те объекты, которые НЕ могут содержать в себе какие-либо ещё самостоятельные объекты. Датасеты также можно классифицировать на основе того, к какой платформе (Postgres, Clickhouse и др.) они относятся.
Разновидность датасета по типу объекта:
-
Table (Таблица) — способ хранения данных в реляционных базах данных;
-
View (Представление) — разновидность таблицы, которая отображает данные в определённом формате;
-
REST Endpoint (REST эндпоинт) — интерфейс для взаимодействия с данными через API. На странице API Revision пользователи могут ознакомиться со списком всех HTTP методов (GET, POST, PUT, DELETE), поддерживаемых данным эндпоинтом.
-
Collection (Коллекция) — специальный формат данных в MongoDB, вмещающий несколько документов;
-
Index (Индекс) — структура данных для Elasticsearch, используемая для быстрого поиска и доступа к данным;
-
Index Template (Шаблон индекса) — структура данных для Elasticsearch, управляющая конфигурацией индексов;
Просмотр метаданных на странице датасета
Страница датасета оформлена в унифицированном формате, независимо от типа объекта, который она представляет. Вследствие этого некоторые разделы будут недоступны для просмотра, если данная платформы не поддерживает их или если они не были добавлены при инджестинге. Ознакомиться с основными разделами можно по следующим ссылкам:
-
Schema (Схема). На этой вкладке находится подробное описание полей таблицы или структуры объекта. Также на этой вкладке можно найти историю изменений схемы - View column history.
-
View Definitions (Представление). На этой вкладке представлен запрос (Logic), с помощью которого сформировано представление (View). Эта информация также дублируется в правой боковой панели в разделе View Definition, где отображается язык запроса, который был использован для создания представления, флаг, указывающий является ли представление материализованным, флаг уникальности.
Если для отображаемого представления используется технология СУБД Clickhouse, то вкладка View definition будет недоступна для просмотра на данный момент.
-
Documentation (Документация). Полное описание датасета, которое можно редактировать, добавлять ссылки и просматривать историю изменений.
-
Lineage (Data Lineage, Происхождение данных). Подробная информация о происхождении данных доступна по ссылке.
-
Properties (Свойства). Автоматически создаваемые поля, полученные при инджестинге метаданных в Каталог. Они включают техническую информацию, такую как тип платформы, название инстанса и окружения. Данные могут отсутствовать, если инджестор не смог их извлечь.
-
Queries (Запросы): В этом разделе будут показаны запросы, с помощью которых можно извлечь данные из объекта. Запросы и описание извлекаемых данных создаются владельцем объекта.
-
Stats (Статистика и Результаты профилирования данных). Статистика включает статистические данные и графики, помогающие понять содержание данных, а также статистику по историческим данным.
-
DQ Checks (Проверки качества данных). Информация о качестве данных в датасете.