Skip to content

Аппаратные требования

Минимальные требования

Ноды кластера по функционалу разделены на две категории:

master - ноды, где запускаются сервисы отвечающие за: работу с метаданными кластера, предоставление интерфейса для подключения клиентов, координация ресурсов и приложений бегущих на кластере. К таким сервисам относятся: namenode, resourcemanager, hiveserver, hivemetastore, ranger, zookeeper и прочее;

worker - ноды, где непосредственно хранятся данные и запускаются задачи по их обработке, на нодах запускаются сервисы datanode и nodemanager.

Минимальные требования:

master worker
CPU 8 vCore 8 vCore
RAM 32 GiB 64 GiB
HDD 100 GiB 400 GiB

Файловые системы

/root

Файловая система для ОС и установки rpm пакетов.
Минимальный размер 50 GiB. Рекомендуемая файловая система ext4.
Необходимо создать и на master и на worker.

/data

На master хранит метаданные кластера, на worker используется для хранения промежуточных результатов обработки данных, логов запущенных на кластере задач.
Минимальный размер 50 GiB. Рекомендуемая файловая система ext4.
Необходимо создать и на master и на worker.

/grid/[0..99]

Точки монтирования дисков для хранения данных в HDFS.
Минимальный размер 200 GiB. Рекомендуемая файловая система xfs.
Необходимо создать только на worker, где будет запущен сервис datanode.

/ozonedata/[0..99]

Точки монтирования дисков для хранения данных в Ozone.
Минимальный размер 100 GiB. Рекомендуемая файловая система xfs. Необходимо создать только на worker, где будет запущен сервис ozone-datanode.

Аппаратная платформа

Intel x86_64

Программные требования

Операционная система

Oracle Linux 8 или бинарно совместимые. rpm пакеты собраны для el8, сервисы запускаются через systemd

СУБД для метаданных компонентов

Для хранения метаданных компонентов Hive, Ranger необходима СУБД PostgreSQL не ниже 10 версии.

Оркестратор

Установка, настройка и управление конфигурацией кластера происходит через ansible.
ansible не ниже 9.0.0
ansible-core не ниже 2.16

DNS записи

Для всех нод входящих в кластер нужно создать прямую и обратную запись в DNS.
Если по какой либо причине вы не можете этого сделать, нужно добавить информацию о всех нодах в файл /etc/hosts в формате "<IP адрес> <FQDN ноды>".

Настройки служб безопасности ОС

Дистрибутив Hadoop (MWS Data Slon) не предназначен для работы с SELinux и firewall, т.к. данные службы безопасности ОС при включенном состоянии могут повлиять на сетевые взаимодействия и препятствовать корректной работе дистрибутива. Для нормальной работы дистрибутива данные службы необходимо отключить.

1) Отключить firewalld следует командами:

systemctl disable firewalld.service
systemctl stop firewalld.service

2) Отключить SELinux следует заданием в файле /etc/selinux/config параметра SELINUX=disabled, после чего необходимо перезагрузить ноду.

Синхронизация времени

Так как кластер очень чувствителен к синхронизации времен между нодами, необходимо настроить и запустить сервис chrony. В файле /etc/chrony.conf можно задать список серверов времени с которыми нужно синхронизироваться, если вас по какой либо причине не устраивают сервера по умолчанию. Запустить сервис chrony можно командами:

systemctl enable chronyd.service
systemctl start chronyd.service

Требования к сети

Сетевые порты, необходимые для подключения к кластеру и взаимодействия компонентов внутри кластера:
- Сетевые порты MWS Data Slon