Parquet

Apache Parquet, апач паркет, формат данных

Apache Parquet — это бинарный, колоночно-ориентированный (столбцовый) формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного столбцового представления информации. Паркет позволяет задавать схемы сжатия на уровне столбцов и добавлять новые кодировки по мере их изобретения и реализации [1]. Вместе с Apache Avro, Паркет является очень популярным форматом хранения файлов Big Data и часто используется в Kafka, Spark и Hadoop. Структура файла Apache Parquet Из-за архитектурных особенностей структура представления информации в Parquet сложнее, чем, например, в JSON, который также часто используется для Big Data. В частности, уровни определения (definition levels) и уровни повторения (repetition levels) позволяют оптимально хранить пустые значения и эффективно кодировать данные, информацию о схеме в отдельные метаданные [2]. Уровни определения определяют количество необязательных полей в пути для Далее …