Фильтр Блума в Apache Spark для Parquet-файлов

Автор Категория ,
Фильтр Блума в Apache Spark для Parquet-файлов

Сегодня рассмотрим, что такое фильтр Блума и как эта структура данных используется в Apache Spark для чтения Parquet-файлов. Про хеширование, UUID, достоинства и недостатки Bloom-фильтра для бинарного колоночного формата хранения…