Skip to content

Инджестор HashData

Настройка, предварительные условия и разрешения

Для учетной записи, под которой инджестор будет обращаться в базу данных, необходим доступ к следующих схемам и таблицам в них: pg_catalog: pg_database, pg_namespace, pg_class, pg_prepared_xacts, pg_sequence, pg_attrdef, pg_attribute, pg_description, pg_constraint, pg_type, pg_enum, pg_depend, pg_rewrite

Для извлечения размеров таблиц:

GRANT USAGE ON %СХЕМА% TO %ПОЛЬЗОВАТЕЛЬ%;

Так же, для извлечения прав из источника:

pg_catalog: pg_tables, pg_user

GRANT USAGE ON %СХЕМА% TO %ПОЛЬЗОВАТЕЛЬ%;

Возможности платформы (Important Capabilities)

Название Описание Поддерживается Настройки
Schema Metadata Вкладка Schema: схема датасета Да Включено по умолчанию.
Descriptions Вкладка Documentation: текстовое описание объекта Да Включено по умолчанию. Можно редактировать через Excel.
Properties Вкладка Properties: системные поля Да Включено по умолчанию. Настраивается в рецепте с помощью трансформеров.
Dataset Usage & Query History Вкладка Queries: запросы и историческая информация о датасете Да Включено по умолчанию.
DQ Checks Вкладка DQ Checks: проверка качесва данных Да Отключено по умолчанию. Настраивается с помощью дополнительного инджестора.
Platform Instance Наличие у объекта связи с платформ инстансом Да Включено по умолчанию. Настраивается в рецепте.
Critical data Чекбокс Critical полей Да Включено по умолчанию. Можно редактировать через Excel.
Ownership Наличие у объекта владельца Да Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров.
Detect deleted entities Проверка удалены ли данные в источнике. Да Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion, или с помощью Form.
Status Пометить удаленным Да Включено по умолчанию. Можно редактировать с помощью трансформеров.
Tags Наличие у объекта тега Да Включено по умолчанию. Можно редактировать через Excel и с помощью трансформеров.
Glossary Term Наличие у объекта связи с термином Да Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров.
Domains (Домены) Наличие у объекта связи с доменом Да Настраивается в рецепте, в разделе stateful ingestion. Можно редактировать через Excel или с помощью трансформеров.

Пример рецепта

Для получения деталей о добавлении паттернов для баз данных, схем, представлений, таблиц можно обратиться к странице паттернов

source:
  type: hashdata-dc # Платформа
  config:
    host_port: localhost:5432  # Хост и порт сервера БД
    database: DemoDatabase     # Имя БД
    username: user             # Пользователь
    password: pass             # Пароль
    platform_instance: 'Сюда_подставить_platform_instance'  # Наименование источника в Каталоге данных.
    stateful_ingestion:
      enabled: true            # Признак включения режима 'Stateful ingesting' - загружаемые данные имеют приоритет над загруженными ранее. Если в загружаемых отсутствуют таблицы/поля - они не будут отображаться в Каталоге после загрузки
    schema_pattern:            # Необязательный параметр. Regex паттерны для разрешения/исключения схем, по умолчанию allow: ['.*'], deny: ['information_schema'], ignoreCase: True
      allow: ['.*']            # Подробности заполнения данного блока смотрите на странице [паттернов](../patterns.md) 
      deny: ['information_schema']
      ignoreCase: True
    table_pattern:             # Необязательный параметр. Regex паттерны для разрешения/исключения таблиц, по умолчанию allow: ['.*'], deny: [], ignoreCase: True. Формат - база.схема.паттерн_таблицы, например, для извлечения таблиц из базы customers, начинающихся с mobile_ - customers.public.mobile_*
      allow: ['.*']            # Подробности заполнения данного блока смотрите на странице [паттернов](../patterns.md) 
      deny: []
      ignoreCase: True
    view_pattern:              # Необязательный параметр. Regex паттерны для разрешения/исключения представлений, по умолчанию allow: ['.*'], deny: [], ignoreCase: True
      allow: ['.*']            # Подробности заполнения данного блока смотрите на странице [паттернов](../patterns.md)  
      deny: []
      ignoreCase: True
    # Опционально: конфиграция SSL для подключения к источнику
    # options:
    #   connect_args:
    #     sslcert: '<<path to sslcert>>'
    #     sslkey: '<<path to sslkey>>'
    #     sslrootcert: '<<path to verification ca chain>>'
    #     sslmode: 'verify-full'
pipeline_name: 'Сюда_подставить_имя_pipeline'
sink:
  type: catalog-rest
  config:
    server: 'https://gms.datacatalog.ru'
    token: '********'
transformers:
  - type: 'add_digital_products'
    config:
      digital_products: ['PRODUCT_ID1','PRODUCT_ID2']  # Список продуктов из мастер-системы, с которыми будут связаны все объекты, создаваемые по результатам инджестинга.