Apache AirFlow

Что такое AirFlow

Apache AirFlow — это инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Apache Airflow используется как планировщик ETL/ELT-процессов. Основные сущности рабочего процесса на Apache Airflow: Направленные ациклические графы (DAG) Планировщик (Scheduler) Операторы (Operators) Задачи (Tasks) AIRF: Apache AirFlow Что такое AirFlow?

AVRO

Apache Avro

Avro – это линейно-ориентированный (строчный) формат хранения файлов Big Data, активно применяемый в экосистеме Apache Hadoop и широко используемый в качестве платформы сериализации. Как устроен формат Avro для файлов Big Data: структура и принцип работы Avro сохраняет схему в независимом от реализации текстовом формате JSON (JavaScript Object Notation), что облегчает ее чтение и интерпретацию как программами, так и человеком [1]. Файл Авро состоит из заголовка и блоков данных. Заголовок содержит: 4 байта, ASCII ‘O’, ‘b’, ‘j’, далее 1. метаданные файла, содержащие схему – структуру представления данных. 16-байтное случайное число — маркер файла. Для блоков данных Avro может использовать компактную бинарную кодировку или человекочитаемый формат JSON, удобный для отладки. В отличие от многих других форматов Big Data, столбцовых (RCFile, Apache ORC и Далее …