Parquet

Apache Parquet, апач паркет, формат данных

Apache Parquet — это бинарный, колоночно-ориентированный формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного колоночно-ориентированного представления информации. Паркет позволяет задавать схемы сжатия на уровне столбцов и добавлять новые кодировки по мере их появления [1]. Вместе с Apache Avro, Parquet является очень популярным форматом хранения файлов Big Data и часто используется в Kafka, Spark и Hadoop. Структура файла Apache Parquet Из-за архитектурных особенностей структура представления информации в Parquet сложнее, чем, например, в JSON, который также часто используется для Big Data. В частности, уровни определения (definition levels) и уровни повторения (repetition levels) позволяют оптимально хранить пустые значения и эффективно кодировать данные, информацию о схеме в  метаданные [2]. Уровни определения определяют количество необязательных полей в пути Далее …

provenance

Data provenance — происхождение данных, метаданные, которые обеспечивают исторические изменения записи  и её оригинала. Происхождение данных генерируется сложными трансформациями, такими как workflow, и представляют определенную ценность для data scientist. Data provenance часто используют в контексте high-level рассмотрения преобразования данных для бизнес-пользователя. Происхождение данных часто рассматривается как синоним Data Lineage, однако это не совсем корректно.  Подробнее разницу между этими двумя терминами мы описали здесь. Источник  WikiPedia  

PySpark

Apache Spark. PySpark может использоваться для распределенных вычислений на Python в рамках анализа и обработки больших данных (Big Data), а также машинного обучения (Machine Learning).