Описание продукта
onETL - это открытая библиотека на базе Apache Spark, она предназначена для реализации и выполнения процессов обработки данных в любых условиях. Библиотека с равным успехом и подходом к реализации позволяет обрабатывать как мегабайты, так и терабайты данных, работать с различными системами хранения не меняя интерфейс подключения к ним и выполнять процессы в широком наборе окружений.
Отличительные особенности onETL
-
Быстрый старт -- поскольку библиотека опубликована в open source получить ее можно просто выполнив
pip install onetl
. -
Удобный программный интерфейс библиотеки интуитивно понятен и прост: она предоставляет 3 базовых примитива: "Подключения", "Объекты чтения/ записи" и "Стратегии". Первые дают во многом идентичные интерфейсы для различных систем хранения, вторые единообразно позволяют выполнять базовые операции, а третьи нужны, чтобы оптимальным образом организовать процесс обработки данных. Больше не нужно мучиться и держать в голове миллион разных нюансов - теперь работа с любой БД будет выглядеть одинаково.
-
Все коннекторы под рукой: в библиотеку включена поддержка 20 самых распространенных систем хранения: реляционных СУБД, MPP, брокеров сообщений и различных файловых источников.
-
Открытый код: вы видите как устроена библиотека, можете предлагать свои правки и быть уверенными, что в ней нет ничего лишнего.
-
Гибкость: процессы реализованные с помощью библиотеки легко подстроить под различные окружения и условия выполнения. Код для переноса мегабайт или терабайт данных не будет иметь существенных отличий, но при этом ресурсы будут использоваться оптимальным образом.
-
Универсальность: все данные приводятся к одной универсальной структуре -- DataFrame. Это позволяет разработчику оставаться сфокусированным на одном контексте, поскольку нет необходимости его менять.
-
Надежность Библиотека с одной стороны представляет собой обобщение - надстройку над проверенными открытыми решениями, а с другой ежедневно применяется в тысячах процессов, выполняемых в производственных цепочках обработки данных в МТС.
-
Наблюдаемость: функционал журналирования, реализованный в библиотеке представляет собой гибкий инструмент, позволяющий получить исчерпывающую информацию для эффективной диагностики процессов обработки данных.
-
Скорость обработки: "под капотом" onETL использует Apache Spark - признанного лидера в скорости обработки данных, и поэтому процессы реализованные с ее помощью обладают теми же свойствами, но при этом не требуют от разработчика разбираться в нюансах не самого тривиального API Spark. Скорость работы сравнима со скоростью нативных инструментов, но при этом отпадает необходимость изучать и держать в голове детали каждой используемой системы хранения.
Сделано дата-инженерами для дата-инженеров
Зачем использовать onETL?
Чтобы:
- Снизить порог вхождения для реализации пайплайнов обработки данных
- Повысить фокус разработчика на бизнес-задачах
- Не изобретать велосипеды
- Получить проверенное решение, ежедневно применяемое в одной из крупнейших корпораций
- Упростить передачу знаний между разработчиками и командами разработки
- Стандартизировать процессы обработки данных
Кто, кроме МТС использует onETL
- АФК
- МТС-Банк
- РТК
- ...
Поддерживаемые хранилища и форматы
-
СУБД
- Clickhouse
- Greenplum
- Kafka
- Hive
- MongoDB
- MSSQL
- MySQL
- Oracle
- Postgres
- Teradata
-
Файловые системы
- FTP
- FTPS
- HDFS
- Samba
- SFTP
- S3
- Webdav
- Локальная ФС
-
Форматы файлов
- Avro
- CSV
- Excel
- JSON
- JSONLine
- ORC
- Parquet
- XML
Подключайтесь и растите вместе с нами!