Архитектура Hadoop (MWS Data Slon)

Основные функции продукта Hadoop (MWS Data Slon)

Продукт MWS Data Slon обеспечивает две основные функции:
- Хранение и управление данными: Hadoop предлагает масштабируемое и надежное хранение больших объемов данных, а также инструменты для управления ими, такие как система дистрибуированного хранения файлов Hadoop Distributed File System (HDFS) или Ozone и система управления ресурсами YARN.
- Обработка данных и вычисления: Hadoop также предоставляет платформу для проведения масштабируемых вычислений на больших данных, включая анализ, обработку и визуализацию данных, с помощью таких инструментов, как MapReduce, Hive и Tez.

Архитектура MWS Data Slon

MWS Data Slon имеет следующие компоненты:

Обработка данных

Компонент	Описание компонента
HiveServer	Обеспечивает доступ к базе данных Hive из различных клиентских приложений. Hive Server является сервером, который принимает запросы от клиентов и передает их в базу данных Hive для выполнения. HiveServer оптимизирован для распределенной обработки, поддерживает параллельные запросы и выполняет обработку данных через инструмент, выбранный для выполнения, будь то MapReduce, Tez или Spark.
HiveMetastore	Обеспечивает хранение и управление метаданными о таблицах, столбцах и других объектах в Hive. Hive Metastore является сервером, который хранит информацию о структуре данных в базе данных Hive и обеспечивает доступ к этой информации для других компонентов Hive. Сервер обеспечивает высокую скорость доступа к структуре данных и упрощает управление схемами. Это позволяет другим сервисам, таким как Spark и Tez, напрямую использовать метаданные для выполнения операций без необходимости обращаться к данным напрямую, что экономит ресурсы.
MapReduce	Движок предназначеный для выполнения больших вычислительных задач на больших наборах данных. Широко применяется для задач агрегации и анализа. MapReduce разделяет задачи на этапы "map" и "reduce" для параллельной обработки. Поддерживает отказоустойчивость через повторное выполнение задач при сбоях.
Tez	Движок для выполнения высокопроизводительных и сложных задач обработки данных в экосистеме Hadoop. Обеспечивает выполнение DAG задач, оптимизируя шаги их выполнения. Он является альтернативой фреймворку MapReduce и предоставляет более эффективные и гибкие возможности для обработки данных. Tez может использовать более сложные топологии, что позволяет выполнять задачи с меньшими задержками. Подходит для выполнения итеративных алгоритмов и задач ETL.
Spark	Высокопроизводительный и распределенный фреймворк для обработки и анализа больших объемов данных. Он предоставляет мощные возможности для параллельной обработки данных, машинного обучения, потоковой обработки данных и графовых вычислений. Фреймворк работает преимущественно в оперативной памяти, что значительно ускоряет выполнение задач. Spark поддерживает языки программирования Python, Scala, Java и R, а также интегрируется с HDFS, Hive и YARN. Spark используется в задачах, где требуется быстрая реакция и интерактивные вычисления, а также поддерживает широкий спектр библиотек для работы с данными.

Безопасность

Компонент

Описание компонента

Ranger

Инфраструктура безопасности и управления доступом для экосистемы Hadoop. Ranger предоставляет функционал для контроля доступа к данным и ресурсам кластера. Обеспечивает централизованное управление политиками безопасности, включающее аутентификацию на уровне пользователей, групп и ролей, а также интеграцию с LDAP и Kerberos для обеспечения комплексного контроля доступа. Ranger позволяет администратору централизованно задавать политики безопасности и вести аудит действий пользователей, тем самым повышая безопасность данных.

Планировщик ресурсов

Компонент

Описание компонента

YARN

Система управления ресурсами для больших наборов данных. YARN используется для управления ресурсами, которые используются для обработки больших наборов данных. Позволяет различным приложениям и процессам использовать ресурсы на кластере эффективно и безопасно. YARN распределяет вычислительные ресурсы кластера между различными приложениями и задачами, обеспечивает балансировку нагрузки и поддерживает многозадачность, позволяя нескольким пользователям одновременно запускать свои задания в кластере. Система включает в себя ResourceManager для глобального планирования ресурсов и NodeManager для контроля ресурсов на уровне узлов, что позволяет оптимизировать использование вычислительной мощности и ресурсов.

Распределенная файловая система

Компонент

Описание компонента

HFDS

Распределенная файловая система, используется для хранения и обработки больших объемов данных в экосистеме Hadoop. HDFS предоставляет высокую отказоустойчивость, масштабируемость и надежность для хранения и доступа к данным на кластере. HDFS автоматически дублирует данные на нескольких узлах для предотвращения потерь информации и поддерживает обработку больших файлов, разделяя их на блоки и распределяя их по кластеру. HDFS также интегрируется с другими компонентами Hadoop, такими как MapReduce и YARN, для обеспечения комплексного подхода к обработке данных.

Ozone

Распределенная файловая система, используется для хранения и обработки больших наборов данных в экосистеме Hadoop. Ozone позволяет обрабатывать большие наборы данных быстрее HDFS. Обеспечивает высокую доступность данных и может интегрироваться с другими компонентами Hadoop для использования в рамках больших аналитических систем.