Stats (статистика)
Страница статистики предоставляет обзор ключевых метрик датасета. Здесь показана статистика по датасету и результаты профилирования. Каждый запуск процесса профилирования логируется, что обеспечивает возможность отслеживания изменений с течением времени.
Настройка, предварительные условия и разрешения
Содержимое страницы статистики зависит от настроек профилирования, которые были заданы при инджестинге для данного объекта. Стоит отметить, что профилирование может создавать дополнительную нагрузку на базу данных, поэтому важно учитывать производительность системы при активации профилирования.
Ознакомиться с настройками профилирования.
Метрики профилирования
На странице статистики представлены следующие метрики профилирования, которые помогают оценить характеристики датасета:
- Name (Имя). Название столбца или поля, для которого проводилось профилирование,
- Min (Минимальное значение). Наименьшее значение в данном поле,
- Max (Максимальное значение). Наибольшее значение в данном поле,
- Mean (Среднее значение). Среднее арифметическое всех значений в поле,
- Median (Медиана). Медианное значение,
- Null Count (Количество пустых значений). Общее количество записей, в которых значение поля отсутствует (NULL),
- Null % (Процент пустых значений). Соотношение пустых значений к общему количеству записей в поле в процентах,
- Distinct Count (Количество уникальных значений). Общее количество уникальных значений в данном поле,
- Distinct % (Процент уникальных значений). Соотношение уникальных значений к общему количеству записей в поле в процентах,
- Std. Dev (Стандартное отклонение). Мера разброса значений относительно среднего,
- Sample Values (Примеры значений). Случайное значение или несколько значение из данного поля, позволяющая быстро оценить данные.
Исторические данные профилирования (Historical)
Для просмотра истории профилирования необходимо перейти в раздел Historical. Здесь представлены три раздела Profiling Runs - ссылки на данные профилирования при предыдущем запуске инджестора, Table Stats - статистика по таблицам, Column Stats - статистика по колонкам/полям.
Чтобы отсортировать данные профилирования, в фильтре в правом углу выберите период, за который хотите просмотреть историю. Например, вы можете выбрать Profiling history for past 1 week, чтобы отфильтровать значения на странице за последнюю неделю.
Запуски профилирования (Profiling Runs)
В таблице Profiling Runs будут представлены результаты запусков профилирования, включая следующие параметры:
- Date, дата запуска профилирования,
- Row Count, общее количество строк в датасете,
- Column Count, общее количество столбцов в датасете,
- Size, размер датасета в используемом хранилище.
Для открытия исторических данных и просмотра статистики за определенный период в прошлом, кликните на интересующую вас дату. В открывшемся окне можно просмотреть все метрики профилирования актуальные в выбранный период времени.
Статистика таблицы (Table Stats)
Статистика таблицы визуализирует исторические данные по датасету. Первые три графика показывают, как изменялся датасет за выбранный период времени (фильтр в правом углу):
- Row Count Over Time график изменения количества строк в датасете,
- Column Count Over Time график изменения количества столбцов,
- Size Over Time график изменения размера датасета.
Статистика по колонкам (Column Stats)
Статистика по колонкам позволяет пользователю самостоятельно выбрать поле датасета для визуализации на графике. Сделать это можно с помощью фильтра в правом верхнем углу. Для выбранного поля будут построены четыре графика:
- Null Count Over Time - график изменения количества пустых значений со временем,
- Null Percentage Over Time - график изменения процента пустых значений со временем,
- Distinct Count Over Time - график изменения количества уникальных значений со временем,
- Distinct Percentage Over Time - график изменения процента уникальных значений со временем.