Описание продукта

onETL - это открытая библиотека на базе Apache Spark, она предназначена для реализации и выполнения процессов обработки данных в любых условиях. Библиотека с равным успехом и подходом к реализации позволяет обрабатывать как мегабайты, так и терабайты данных, работать с различными системами хранения не меняя интерфейс подключения к ним и выполнять процессы в широком наборе окружений.

Отличительные особенности onETL

Быстрый старт -- поскольку библиотека опубликована в open source получить ее можно просто выполнив pip install onetl.
Удобный программный интерфейс библиотеки интуитивно понятен и прост: она предоставляет 3 базовых примитива: "Подключения", "Объекты чтения/ записи" и "Стратегии". Первые дают во многом идентичные интерфейсы для различных систем хранения, вторые единообразно позволяют выполнять базовые операции, а третьи нужны, чтобы оптимальным образом организовать процесс обработки данных. Больше не нужно мучиться и держать в голове миллион разных нюансов - теперь работа с любой БД будет выглядеть одинаково.
Все коннекторы под рукой: в библиотеку включена поддержка 20 самых распространенных систем хранения: реляционных СУБД, MPP, брокеров сообщений и различных файловых источников.
Открытый код: вы видите как устроена библиотека, можете предлагать свои правки и быть уверенными, что в ней нет ничего лишнего.
Гибкость: процессы реализованные с помощью библиотеки легко подстроить под различные окружения и условия выполнения. Код для переноса мегабайт или терабайт данных не будет иметь существенных отличий, но при этом ресурсы будут использоваться оптимальным образом.
Универсальность: все данные приводятся к одной универсальной структуре -- DataFrame. Это позволяет разработчику оставаться сфокусированным на одном контексте, поскольку нет необходимости его менять.
Надежность Библиотека с одной стороны представляет собой обобщение - надстройку над проверенными открытыми решениями, а с другой ежедневно применяется в тысячах процессов, выполняемых в производственных цепочках обработки данных в МТС.
Наблюдаемость: функционал журналирования, реализованный в библиотеке представляет собой гибкий инструмент, позволяющий получить исчерпывающую информацию для эффективной диагностики процессов обработки данных.
Скорость обработки: "под капотом" onETL использует Apache Spark - признанного лидера в скорости обработки данных, и поэтому процессы реализованные с ее помощью обладают теми же свойствами, но при этом не требуют от разработчика разбираться в нюансах не самого тривиального API Spark. Скорость работы сравнима со скоростью нативных инструментов, но при этом отпадает необходимость изучать и держать в голове детали каждой используемой системы хранения.

Сделано дата-инженерами для дата-инженеров

Зачем использовать onETL?

Чтобы:

Снизить порог вхождения для реализации пайплайнов обработки данных
Повысить фокус разработчика на бизнес-задачах
Не изобретать велосипеды
Получить проверенное решение, ежедневно применяемое в одной из крупнейших корпораций
Упростить передачу знаний между разработчиками и командами разработки
Стандартизировать процессы обработки данных

Кто, кроме МТС использует onETL

АФК
МТС-Банк
РТК
...

Поддерживаемые хранилища и форматы

СУБД
- Clickhouse
- Greenplum
- Kafka
- Hive
- MongoDB
- MSSQL
- MySQL
- Oracle
- Postgres
- Teradata
Файловые системы
- FTP
- FTPS
- HDFS
- Samba
- SFTP
- S3
- Webdav
- Локальная ФС
Форматы файлов
- Avro
- CSV
- Excel
- JSON
- JSONLine
- ORC
- Parquet
- XML

Подключайтесь и растите вместе с нами!