Проверка качества данных (DQ-Checks)
Раздел DQ-Checks на странице датасета предоставляет информацию о состоянии качества данных. В этом разделе отображаются различные проверки, которые созданы для объекта. В пределах одного датасета может быть создано множество проверок, каждая из которых может охватывать одно или несколько полей датасета.
Интерфейс на странице датасета
В разделе Schema в столбце # of DQ Checks выводится информация о количестве проверок для данного поля. Проверки так же могут отсутствовать для поля, тогда оно будет пустым. В разделе DQ Checks страницы объекта доступна подробная информация о всех проверках, назначенных для данного датасета.
Раздел DQ Checks представляет информацию в следующем формате:
- DQL (Data Quality Level): Эта метрика показывает процент корректности и отражает успешность выполнения каждой проверки, при наведении на метрику появляется всплывающее окно с информацией о количестве ошибок. Цвета метрики варьируются в зависимости от значения:
- синий и значение unknown, когда проверка прошла неуспешно,
- зеленый, когда проверка прошла успешно и не выявила проблем,
-
красный, когда проверка прошла успешно, но выявила проблемы с качеством данных.
-
Last Check Date: этот параметр отображает дату и время последнего запуска каждой отдельной проверки.
-
Check Name: это наименование конкретной проверки, обычно наименования проверок содержат технические термины, что облегчает их идентификацию.
-
Description: подробное описание проверки, объясняющее, что именно анализировалось в процессе проверки и какие критерии качества использовались.
-
Fields: указывает на поля, которые были предметом проверки. Это позволяет пользователям видеть, какие именно части данных были проанализированы и как это связано с общей корректностью данных. Если в этом поле указано значение *, это означает, что все поля объекта задействованы в проверке. Так же может быть указано и конкретное поле или несколько полей, которые были задействованы при проверке. Названия полей представлены в виде бейджей, цвет которых варьируется в зависимости от уровня качества данных (DQL).
-
Incident Management: если в ходе проверки выявляются проблемы с качеством данных, то для их разрешения формируются инциденты. Их наличие для объекта изображается зеленым флажком, его также можно увидеть на странице поисковой выдачи.
Также в Каталоге данных предусмотрена возможность фильтровать объекты по наличию или отсутствию проверок качества данных. Ознакомиться с инструкцией можно на странице фильтров.