Skip to content

Описание продукта

onETL - это открытая библиотека на базе Apache Spark, она предназначена для реализации и выполнения процессов обработки данных в любых условиях. Библиотека с равным успехом и подходом к реализации позволяет обрабатывать как мегабайты, так и терабайты данных, работать с различными системами хранения не меняя интерфейс подключения к ним и выполнять процессы в широком наборе окружений.

Отличительные особенности onETL

  • Быстрый старт -- поскольку библиотека опубликована в open source получить ее можно просто выполнив pip install onetl.

  • Удобный программный интерфейс библиотеки интуитивно понятен и прост: она предоставляет 3 базовых примитива: "Подключения", "Объекты чтения/ записи" и "Стратегии". Первые дают во многом идентичные интерфейсы для различных систем хранения, вторые единообразно позволяют выполнять базовые операции, а третьи нужны, чтобы оптимальным образом организовать процесс обработки данных. Больше не нужно мучиться и держать в голове миллион разных нюансов - теперь работа с любой БД будет выглядеть одинаково.

  • Все коннекторы под рукой: в библиотеку включена поддержка 20 самых распространенных систем хранения: реляционных СУБД, MPP, брокеров сообщений и различных файловых источников.

  • Открытый код: вы видите как устроена библиотека, можете предлагать свои правки и быть уверенными, что в ней нет ничего лишнего.

  • Гибкость: процессы реализованные с помощью библиотеки легко подстроить под различные окружения и условия выполнения. Код для переноса мегабайт или терабайт данных не будет иметь существенных отличий, но при этом ресурсы будут использоваться оптимальным образом.

  • Универсальность: все данные приводятся к одной универсальной структуре -- DataFrame. Это позволяет разработчику оставаться сфокусированным на одном контексте, поскольку нет необходимости его менять.

  • Надежность Библиотека с одной стороны представляет собой обобщение - надстройку над проверенными открытыми решениями, а с другой ежедневно применяется в тысячах процессов, выполняемых в производственных цепочках обработки данных в МТС.

  • Наблюдаемость: функционал журналирования, реализованный в библиотеке представляет собой гибкий инструмент, позволяющий получить исчерпывающую информацию для эффективной диагностики процессов обработки данных.

  • Скорость обработки: "под капотом" onETL использует Apache Spark - признанного лидера в скорости обработки данных, и поэтому процессы реализованные с ее помощью обладают теми же свойствами, но при этом не требуют от разработчика разбираться в нюансах не самого тривиального API Spark. Скорость работы сравнима со скоростью нативных инструментов, но при этом отпадает необходимость изучать и держать в голове детали каждой используемой системы хранения.

Сделано дата-инженерами для дата-инженеров

Зачем использовать onETL?

Чтобы:

  1. Снизить порог вхождения для реализации пайплайнов обработки данных
  2. Повысить фокус разработчика на бизнес-задачах
  3. Не изобретать велосипеды
  4. Получить проверенное решение, ежедневно применяемое в одной из крупнейших корпораций
  5. Упростить передачу знаний между разработчиками и командами разработки
  6. Стандартизировать процессы обработки данных

Кто, кроме МТС использует onETL

  • АФК
  • МТС-Банк
  • РТК
  • ...

Поддерживаемые хранилища и форматы

  • СУБД


    • Clickhouse
    • Greenplum
    • Kafka
    • Hive
    • MongoDB
    • MSSQL
    • MySQL
    • Oracle
    • Postgres
    • Teradata
  • Файловые системы


    • FTP
    • FTPS
    • HDFS
    • Samba
    • SFTP
    • S3
    • Webdav
    • Локальная ФС
  • Форматы файлов


    • Avro
    • CSV
    • Excel
    • JSON
    • JSONLine
    • ORC
    • Parquet
    • XML

Подключайтесь и растите вместе с нами!