Архитектура Hadoop (MWS Data Slon)
Основные функции продукта Hadoop (MWS Data Slon)
Продукт MWS Data Slon обеспечивает две основные функции:
- Хранение и управление данными: Hadoop предлагает масштабируемое и надежное хранение больших объемов данных, а также инструменты для управления ими, такие как система дистрибуированного хранения файлов Hadoop Distributed File System (HDFS) или Ozone и система управления ресурсами YARN.
- Обработка данных и вычисления: Hadoop также предоставляет платформу для проведения масштабируемых вычислений на больших данных, включая анализ, обработку и визуализацию данных, с помощью таких инструментов, как MapReduce, Hive и Tez.
Архитектура MWS Data Slon

MWS Data Slon имеет следующие компоненты:
Обработка данных
Компонент |
Описание компонента |
HiveServer |
Обеспечивает доступ к базе данных Hive из различных клиентских приложений. Hive Server является сервером, который принимает запросы от клиентов и передает их в базу данных Hive для выполнения. HiveServer оптимизирован для распределенной обработки, поддерживает параллельные запросы и выполняет обработку данных через инструмент, выбранный для выполнения, будь то MapReduce, Tez или Spark. |
HiveMetastore |
Обеспечивает хранение и управление метаданными о таблицах, столбцах и других объектах в Hive. Hive Metastore является сервером, который хранит информацию о структуре данных в базе данных Hive и обеспечивает доступ к этой информации для других компонентов Hive. Сервер обеспечивает высокую скорость доступа к структуре данных и упрощает управление схемами. Это позволяет другим сервисам, таким как Spark и Tez, напрямую использовать метаданные для выполнения операций без необходимости обращаться к данным напрямую, что экономит ресурсы. |
MapReduce |
Движок предназначеный для выполнения больших вычислительных задач на больших наборах данных. Широко применяется для задач агрегации и анализа. MapReduce разделяет задачи на этапы "map" и "reduce" для параллельной обработки. Поддерживает отказоустойчивость через повторное выполнение задач при сбоях. |
Tez |
Движок для выполнения высокопроизводительных и сложных задач обработки данных в экосистеме Hadoop. Обеспечивает выполнение DAG задач, оптимизируя шаги их выполнения. Он является альтернативой фреймворку MapReduce и предоставляет более эффективные и гибкие возможности для обработки данных. Tez может использовать более сложные топологии, что позволяет выполнять задачи с меньшими задержками. Подходит для выполнения итеративных алгоритмов и задач ETL. |
Spark |
Высокопроизводительный и распределенный фреймворк для обработки и анализа больших объемов данных. Он предоставляет мощные возможности для параллельной обработки данных, машинного обучения, потоковой обработки данных и графовых вычислений. Фреймворк работает преимущественно в оперативной памяти, что значительно ускоряет выполнение задач. Spark поддерживает языки программирования Python, Scala, Java и R, а также интегрируется с HDFS, Hive и YARN. Spark используется в задачах, где требуется быстрая реакция и интерактивные вычисления, а также поддерживает широкий спектр библиотек для работы с данными. |
Безопасность
Компонент |
Описание компонента |
Ranger |
Инфраструктура безопасности и управления доступом для экосистемы Hadoop. Ranger предоставляет функционал для контроля доступа к данным и ресурсам кластера. Обеспечивает централизованное управление политиками безопасности, включающее аутентификацию на уровне пользователей, групп и ролей, а также интеграцию с LDAP и Kerberos для обеспечения комплексного контроля доступа. Ranger позволяет администратору централизованно задавать политики безопасности и вести аудит действий пользователей, тем самым повышая безопасность данных. |
Планировщик ресурсов
Компонент |
Описание компонента |
YARN |
Система управления ресурсами для больших наборов данных. YARN используется для управления ресурсами, которые используются для обработки больших наборов данных. Позволяет различным приложениям и процессам использовать ресурсы на кластере эффективно и безопасно. YARN распределяет вычислительные ресурсы кластера между различными приложениями и задачами, обеспечивает балансировку нагрузки и поддерживает многозадачность, позволяя нескольким пользователям одновременно запускать свои задания в кластере. Система включает в себя ResourceManager для глобального планирования ресурсов и NodeManager для контроля ресурсов на уровне узлов, что позволяет оптимизировать использование вычислительной мощности и ресурсов. |
Распределенная файловая система
Компонент |
Описание компонента |
HFDS |
Распределенная файловая система, используется для хранения и обработки больших объемов данных в экосистеме Hadoop. HDFS предоставляет высокую отказоустойчивость, масштабируемость и надежность для хранения и доступа к данным на кластере. HDFS автоматически дублирует данные на нескольких узлах для предотвращения потерь информации и поддерживает обработку больших файлов, разделяя их на блоки и распределяя их по кластеру. HDFS также интегрируется с другими компонентами Hadoop, такими как MapReduce и YARN, для обеспечения комплексного подхода к обработке данных. |
Ozone |
Распределенная файловая система, используется для хранения и обработки больших наборов данных в экосистеме Hadoop. Ozone позволяет обрабатывать большие наборы данных быстрее HDFS. Обеспечивает высокую доступность данных и может интегрироваться с другими компонентами Hadoop для использования в рамках больших аналитических систем. |