Skip to content

Hadoop (MWS Data Slon) Документация по установке

Установка дистрибутива MWS Data Slon

Дистрибутив MWS Data Slon включает инструменты для автоматизации развертывания и настройки различных компонентов инфраструктуры кластера, таких как Zookeeper, Keepalived, Hive, Ozone, Spark, HAProxy, Ranger, Hadoop и YARN.

Требования

Установка кластера

Для установки кластера используется init-cluster.yml — автоматизированный плейбук Ansible, который упрощает пошаговое развертывание и настройку кластера. Он объединяет этапы установки и конфигурации различных сервисов, обеспечивая стабильность, отказоустойчивость и готовность комплексной системы к работе.

Пример использования

ansible-playbook -i ./inventory/ ./playbooks/init-cluster.yml --extra-vars "@secrets.yml"

Важно Не забудте настроить параметры конфигурации ansible (ansible.cfg) для работы с ролями MWS Data Slon. Минимальные параметры,которые важно указать: ANSIBLE_PYTHON_INTERPRETER ANSIBLE_ROLES_PATH

Установка компонента

Если необходимо установить отдельный компонент экосистемы, можно использовать плейбуки *_init.yml.

Пример использования

ansible-playbook -i ./inventory ./ozone_init.yml ansible-playbook -i ./inventory ./hive_init.yml ansible-playbook -i ./inventory ./spark_init.yml

Шаги и компоненты init-cluster.yml

Подготовка

Этот этап отвечает за начальную настройку среды и подготовку кластера к развертыванию.

Конфигурация

В этой части конфигурируются настройки и загружаются конфигурационные файлы для сервисов.

Zookeeper

Здесь осуществляется развертывание и запуск Zookeeper.

Keepalived

Этот раздел отвечает за установку и запуск Keepalived, который обеспечивает высокую доступность для различных сервисов.

HAProxy

В этой части происходит установка и запуск HAProxy, который обеспечивает балансировку нагрузки и обработку запросов.

Ranger

Этот раздел устанавливает и настраивает Ranger, включая запуск сервиса администратора и пользовательской синхронизации, а также создание политики для администратора Ranger.

Hadoop

Здесь осуществляется развертывание Hadoop, включая запуск различных компонентов, таких как ZKFC, Namenode и Datanode.

YARN

В данной части происходит установка и начальная настройка YARN, включая запуск различных компонентов, таких как ResourceManager, NodeManager, TimelineServer и HistoryServer.

Ozone

Установка и настройка сервисов компонента Ozone, такие как Ozone Manager, SCM (Storage Container Manager), Recon Server и Datanode for OzoneFS.

Hive

Этот раздел включает настройку и развертывание Hive и Tez, а также запуск соответствующих сервисов.

Spark

Этот раздел включает настройку для развертывания Spark и запуск Spark History Server.

⚠️ Перед запуском плейбуков, убедитесь, что у вас есть правильные права доступа и разрешения для управления удаленными хостами. Также убедитесь, что все необходимые программные и аппаратные ресурсы доступны и подготовлены для развертывания кластера.

Критерии успешной установки кластера

  • Успешное выполнение всех CI/CD pipelines без возникновения ошибок
  • Успешный доступ к кластеру по следующим ссылкам:
Сервис Пример ссылки Описание
NameNode http://hadoop-nn-01-example.com:9870/dfshealth
http://hadoop-nn-02-example.com:9870/dfshealth
Проверка состояния файловой системы HDFS на серверах NameNode.
Ozone Manager http://hadoop-dn-01-example.com:9874/#!/
http://hadoop-dn-02-example.com:9874/#!/
http://hadoop-dn-03-example.com:9874/#!/
Управление сервисом Ozone и его статус.
Ozone SCM http://hadoop-dn-01-example.com:9876/#!/
http://hadoop-dn-02-example.com:9876/#!/
http://hadoop-dn-03-example.com:9876/#!/
Мониторинг состояния менеджера контейнеров хранилища Ozone.
Ranger http://hadoop-mn-03-example.com:6080/login.jsp
http://hadoop-mn-02-example.com:6080/login.jsp
Управление политиками безопасности и доступом через веб-интерфейс Ranger.
Spark History Server http://hadoop-mn-03-example.com:18080/ Просмотр истории выполненных заданий Spark.
YARN Resource Manager http://hadoop-mn-02-example.com:8088/cluster Управление ресурсами YARN и мониторинг состояния кластера.
YARN UI2 http://hadoop-mn-02-example.com:8088/ui2/#/cluster-overview Обновленный интерфейс для мониторинга кластера YARN.

В таблице приведены примерные ссылки на сервисы. У каждого пользователя данные ссылки будут отличаться от указанных в примере. Также у пользователя могут быть не подключены некоторые сервисы.
- Доступ к hive из терминала:

beeline -u "jdbc:hive2://cluster-ha.example.com:20000/default;principal=hive/cluster-ha.example.com"