MWS Data Test
MWS Data Test помогает находить и исправлять ошибки в данных, чтобы принимать на их основе правильные решения.
MWS Data Test — это набор сервисов и инструментов для контроля качества данных.
Под качеством данных принято понимать степень их пригодности для решения конкретной задачи. Степень пригодности характеризуется рядом метрик (доступность, полнота, точность т.д.).
DQ позволяет отслеживать эти метрики на регулярной основе и выявлять отклонения.
Для кого
DQ предоставляет инструменты для обеспечения полного цикла работы по управления качеством данных, которые будут полезны для всех ролей, участвующих в процессе создания data driven продуктов.
-
Дата аналитики и DS специалисты
Для работы с DQ не требуются знания языков программирования, мы предоставляем low code и no code интерфейс для создания проверок качества данных.
С помощью инструмента расширенного профилирования можно проводить adhoc анализ новых источников данных, выявлять аномалии и выбросы в данных на ранних этапах работы.
Профилирование помогает ответить на вопрсос - какие DQ проверки нужно создавать и ставить на регулярный мониторинг. По результатам профилирования можно создавать проверки прямо из веб интерфейса.
Шаблонизатор проверок помогает ускорить создание однотипных проверок для схожих объектов данных.
-
Дата инженеры
Чтобы алерты о проблемах с качеством данных приходили своевременно, запуск проверок можно встроить в ETL пайплайны. C помощью библиотеки dq-client и пакета операторв для Apache Airflow можно реализовать дополнительную логику в ваших процессах В зависимости от результата проверок.
Документация airflow dq-plugins
Проверки можно запускать в памяти ETL процессов над теми датафрэймами, не создавая таким образом избыточную нагрузку на ваше хранилище.
Заключение Дата Контрактов с источниками данных позволит избежать проблем при интеграции и сокртит издержки на поддержку ваших процессов, когда на источнике меняется схема данных.
[ Coming soon...]
-
Data Governance
MWS Data Test предоставляет полный набор инструментов для реализации практик по управлению качеством данных. В группе компаний МТС инструменты DQ используются сотнями команд для реализации десятков тысяч проверок над тясячами объектов данных.
Интеграция с ITSM системами позволяет выстроить практики управления инцидентами по проблемам с качеством данным.
Стандартные дашборды позволяют анализировать результаты проверок в нескольких разрезах, начиная от одиночной проверки, и заканчивая агрегированным уровнем качества данных по объектам или источникам данных.
Описание стандартных дашбордов
Интеграция с Каталогом MWS Data позволяет отслеживать показатели уровня качества данных и покрытия объектов DQ проверками.
Требования к качеству данных и Дата Контракты позволяют выстроить взаимодействие между командами Поставщиков и Потребителей данных.
[ Coming soon...]
-
Data Stewards
В то время, как сама DQ проверка содержит только агрегированный результат (например, доля NULL значений в колонке), сэмплы ошибок позволяют получить детальную информацию о проблеме с данными - например, значения конкретных атрибутов, которые могут использоваться для оперативной отладки и решения проблемы с данными.
Сервисы и Инструменты
-
DQ Neo
Основной сервис, обеспечивающий централизованное хранение информации о качестве данных во всех информационных системах компании.
-
DQ SDK
Python библиотека для создания и запуска DQ проверок в локальной среде, например в Jupyter notebook
Упрощает интеграцию DQ в ETL pipelines
Позволяет сократить нагрузку на источник за счет выполнения проверок над сэмплами данных
-
DQ Profiler
Python библиотека для создания профиля данных таблицы.
Web UI для анализа профиля.
Упрощает поиск аномалий в данных и сокращает время на создание DQ проверок. -
Data Contracts
Сервис для заключения дата контрактов между Поставщиками и Потребителями данных.
Cмещает фокус с обнаружения проблем в данных на их предотвращение.Coming soon...
Возможности
Стандратный набор проверок с возможностью кастомизации
Можно создать бизнес проверки любой сложности через sql или python без внесения изменений в исходный код. DQ проверки объединяются в группы для формирования логических блоков, например все проверки по источнику или процессу. Поддерживаются шаблоны для упрощения создания большого количества типовых проверок.
Интерфейс для разных категорий пользователей
Создание DQ проверок происходит через:
-
веб интерфейс
-
в режиме config as a code
-
python SDK
Все 3 интерфейса полностью синхронизированы.
Дашборды с результатами
Результаты проверок отображаются на интерактивных дашбордах за всю историю наблюдений
Алертинг
По выявленным проблемам с данными отправляются алерты:
-
в виде email
-
Jira тикета
-
Remedy инцидента
-
Prometheus метрик
-
нотификации через Prometheus Alert Manager
Для Jira и Remedy доступен режим группировки алертов, когда повторные срабатывания проверок объединяются в один инцидент.
За счет этого режима уменьшается число неинформативных нотификаций и кол-во тикетов, созданных по проблеме с данными.
Профилирование данных и мастер для настройки проверок
В состав DQ входит инструмент для Профилирования данных с возможностью создания проверок по результатам профилирования.
Интеграция с ETL процессами
Проверки можно запускать как по расписанию через встроенный планировщик, так и через вызов из CI/CD или ETL процессов за счет использования REST API и python клиента.
Кросс проверки между разными источниками
За счет интеграции с инструментом Trino наш продукт позволяет выполнять построчную сверку данных между двумя и более источниками.
Получение примеров ошибочных записей с источников
В дополнение к статусу проверки возможно получение дополнительных атрибутов с источника по записям, не прошедшим проверку.
Поддерживаемые источники
DQ поддерживает работу с реляционными и NoSQL источниками данных:
- Aerospike
- Cassandra
- ClickHouse
- Greenplum
- Hive
- MariaDB
- MongoDB
- MSSQL
- MySQL
- Oracle
- PostgreSQL
- Spark
- Teradata
- Trino
Преимущества
Оптимизация нагрузки на источники данных
Позволяет снижать нагрузку на хранилище данных за счет внутренней оптимизация механизма вычислений и гибкой настройки контролей качества. За счет переиспользования результатов метрик из метаданных DQ можно реализовать сложные бизнес проверки, не создавая при этом дополнительную нагрузку на источник (например, сравнивать текущее значение со скользящим средним за месяц) Позволяет проверять данные в памяти ETL процессов, не допуская сохранение ошибочных данных в хранилище.
Безопасность использования и простота установки
DQ не хранит в себе сами данные с источника - только результаты проверок, таким образом в системе не хранятся конфиденциальные данные, выполняются требования Информационном Безопасности.
Получение детальной информации об ошибках (примеры записей с источника, не прошедших проверку) реализуются через отдельный микросервис.
Отображение проверок к Каталоге Данных MWS Data Cat
Результаты проверок и интегральные показатели качества данных доступны к Каталоге данных в привязке к физическим и бизнес объектам Каталога.
Заключение Дата Контрактов между Поставщиками и Потребителями данных
Дата Контракты помогают внедрить shift left практики по обнаружению и предотвращению ошибок в интеграциях, используемых при создании аналитических продуктов. Сервис Дата Контрактов позволяет Поставщиками и Потребителями создавать соглашения об использовании данных и отслеживает изменение схемы данных в объектах соглашения.
Coming soon...
С чего начать
Типовой кейс использования выглядит следующим образом:
graph TB
A["Установить DQ Neo локально"] --> B["Подключить первый источник данных"];
B --> C["Настроить проверки в конфигурационном yaml-файле"];
C --> D["Загрузить yaml через UI или Python API"];
D --> E["Выполнить тестовый запуск"];
E --> F["Посмотреть результаты на дашбордах"];
F --> G["Добавить расписание или встроить в ETL процесс"];
Начать знакомство с продуктом проще всего с инструмента DQ Neo
С кем связаться
По всем вопросам пишите на почту mwsdata@mts.ru