Аппаратные требования
Минимальные требования
Ноды кластера по функционалу разделены на две категории:
master - ноды, где запускаются сервисы отвечающие за: работу с метаданными кластера, предоставление интерфейса для подключения клиентов, координация ресурсов и приложений бегущих на кластере.
К таким сервисам относятся: namenode, resourcemanager, hiveserver, hivemetastore, ranger, zookeeper и прочее;
worker - ноды, где непосредственно хранятся данные и запускаются задачи по их обработке, на нодах запускаются сервисы datanode и nodemanager.
Минимальные требования:
master | worker | |
---|---|---|
CPU | 8 vCore | 8 vCore |
RAM | 32 GiB | 64 GiB |
HDD | 100 GiB | 400 GiB |
Файловые системы
/root
Файловая система для ОС и установки rpm пакетов.
Минимальный размер 50 GiB. Рекомендуемая файловая система ext4.
Необходимо создать и на master и на worker.
/data
На master хранит метаданные кластера, на worker используется для хранения промежуточных результатов обработки данных, логов запущенных на кластере задач.
Минимальный размер 50 GiB. Рекомендуемая файловая система ext4.
Необходимо создать и на master и на worker.
/grid/[0..99]
Точки монтирования дисков для хранения данных в HDFS.
Минимальный размер 200 GiB. Рекомендуемая файловая система xfs.
Необходимо создать только на worker, где будет запущен сервис datanode.
/ozonedata/[0..99]
Точки монтирования дисков для хранения данных в Ozone.
Минимальный размер 100 GiB. Рекомендуемая файловая система xfs.
Необходимо создать только на worker, где будет запущен сервис ozone-datanode.
Аппаратная платформа
Intel x86_64
Программные требования
Операционная система
Oracle Linux 8 или бинарно совместимые. rpm пакеты собраны для el8, сервисы запускаются через systemd
СУБД для метаданных компонентов
Для хранения метаданных компонентов Hive, Ranger необходима СУБД PostgreSQL не ниже 10 версии.
Оркестратор
Установка, настройка и управление конфигурацией кластера происходит через ansible.
ansible не ниже 9.0.0
ansible-core не ниже 2.16
DNS записи
Для всех нод входящих в кластер нужно создать прямую и обратную запись в DNS.
Если по какой либо причине вы не можете этого сделать, нужно добавить информацию о всех нодах в файл /etc/hosts
в формате "<IP адрес>
<FQDN ноды>
".
Настройки служб безопасности ОС
Дистрибутив Hadoop (MWS Data Slon) не предназначен для работы с SELinux и firewall, т.к. данные службы безопасности ОС при включенном состоянии могут повлиять на сетевые взаимодействия и препятствовать корректной работе дистрибутива. Для нормальной работы дистрибутива данные службы необходимо отключить.
1) Отключить firewalld следует командами:
systemctl disable firewalld.service
systemctl stop firewalld.service
2) Отключить SELinux следует заданием в файле /etc/selinux/config
параметра SELINUX=disabled
, после чего необходимо перезагрузить ноду.
Синхронизация времени
Так как кластер очень чувствителен к синхронизации времен между нодами, необходимо настроить и запустить сервис chrony.
В файле /etc/chrony.conf
можно задать список серверов времени с которыми нужно синхронизироваться, если вас по какой либо причине не устраивают сервера по умолчанию.
Запустить сервис chrony можно командами:
systemctl enable chronyd.service
systemctl start chronyd.service
Требования к сети
Сетевые порты, необходимые для подключения к кластеру и взаимодействия компонентов внутри кластера:
- Сетевые порты MWS Data Slon