Apache Parquet – это бинарный, колоночно-ориентированный формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного колоночно-ориентированного представления информации. Паркет позволяет задавать схемы сжатия на…
Encyclopedia
provenance
Автор Nikolay KomissarenkoData provenance – происхождение данных, метаданные, которые обеспечивают исторические изменения записи и её оригинала. Происхождение данных генерируется сложными трансформациями, такими как workflow, и представляют определенную ценность для data scientist. Data…
PySpark
Автор Роман КотюбеевApache Spark. PySpark может использоваться для распределенных вычислений на Python в рамках анализа и обработки больших данных (Big Data), а также машинного обучения (Machine Learning).