Skip to content

Инджестор Apache Kafka

Настройка, предварительные условия и разрешения

Для получения списка топиков учетной записи необходима операция Describe на ресурсе Cluster.

Возможности платформы (Important Capabilities)

Название Описание Поддерживается Настройки
Schema Metadata Вкладка Schema: схема датасета Да Включено по умолчанию.
Descriptions Вкладка Documentation: текстовое описание объекта Да Включено по умолчанию. Можно редактировать через Excel.
Data Lineage Вкладка Lineage: внутренний lineage источника Нет
Properties Вкладка Properties: системные поля Да Включено по умолчанию.
Dataset Usage & Query History Вкладка Queries: запросы и историческая информация о датасете. Нет
Data Profiling (Профилирование данных) Вкладка Stats: количество строк, столбцов, статистики и графики Нет Отключено по умолчанию.
DQ Checks Вкладка DQ Checks: проверка качества данных Нет
Platform Instance Наличие у объекта связи с платформ инстансом Да Включено по умолчанию. Настраивается в рецепте.
Critical data Чекбокс Critical полей Да Включено по умолчанию. Можно редактировать через Excel.
Ownership Наличие у объекта владельца Да Настраивается в рецепте через meta_mapping директивы. Можно редактировать через Excel или с помощью трансформеров.
Detect deleted entities Проверка удалены ли данные в источнике. Да Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion.
Status Пометить удаленным Да Включено по умолчанию. Можно редактировать с помощью трансформеров.
Tags Наличие у объекта тега Да Настраивается в рецепте через meta_mapping директивы. Можно редактировать через Excel и с помощью трансформеров.
Glossary Term Наличие у объекта связи с термином Да Настраивается в рецепте через meta_mapping директивы. Можно редактировать через Excel или с помощью трансформеров.
Domains (Домены) Наличие у объекта связи с доменом Да Настраивается в рецепте. Можно редактировать через Excel или с помощью трансформеров.

Пример рецепта

source:
  type: kafka
  config:
    platform_instance: source_name
    disable_schema_registry: False
    connection:
      bootstrap: "kafka.bootstrap:9094"
      schema_registry_url: "https://kafka.schema_registry/api/"
    topic_patterns:             # Необязательный параметр. Regex паттерны для разрешения/исключения топиков, по умолчанию allow: ['.*'], deny: [], ignoreCase: True. 
      allow: ['.*']
      deny: []
      ignoreCase: True

sink:
    type: catalog-rest
    config:
        server: 'http://gms-datacatalog.ru:8080'
        token: '********'