При том, что Apache Spark является одной из главных технологий стека Big Data, этот фреймворк не очень хорошо работает с множеством файлов небольшого размера. Поэтому в рамках обучения дата-инженеров и…
Метка: Delta Lake
Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud
Автор Анна ВичуговаКатегория Spark, СтатьиПродолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021…
Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, СтатьиСегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и…
Быстрая OLAP-аналитика больших данных в Delta Lake c Apache Spark SQL и Presto
Автор Анна ВичуговаКатегория Hive, Spark, Use Cases, СтатьиВ этой статье рассмотрим, как сделать SQL-запросы к колоночному хранилищу больших данных с поддержкой ACID-транзакций Delta Lake еще быстрее с помощью Apache Presto. Читайте далее про синергию совместного использования Apache…
Безопасность + надежность: чем хорош транзакционный протокол фиксации Spark-заданий от Databricks
Автор Анна ВичуговаКатегория Spark, СтатьиПродолжая разговор про фиксацию заданий Apache Spark при работе с облачными хранилищами больших данных, сегодня подробнее рассмотрим, насколько эффективны commit-протоколы экосистемы Hadoop, предоставляемые по умолчанию, и почему известный разработчик Big…
Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark
Автор Анна ВичуговаКатегория Spark, СтатьиСегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в…
DataOps и инженерия больших данных: 10 лучших практик от корпорации DNB
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, СтатьиЧтобы добавить в наши курсы для дата-инженеров еще больше реальных примеров и лучших DataOps-практик, сегодня мы расскажем, как специалисты крупной норвежской компании DNB обеспечивают надежный доступ к чистым и точным…
5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc
Автор Анна ВичуговаКатегория AirFlow, Hive, Spark, Use Cases, СтатьиСегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную…
Как построить ETL-pipeline на Apache Spark или что под капотом StreamSets Transformer
Автор Анна ВичуговаКатегория Spark, Use Cases, СтатьиОднажды мы уже рассказывали про StreamSets Data Collector, сравнивая его с Apache NiFi. Сегодня рассмотрим, как устроен этот исполнительный движок для запуска конвейеров обработки больших данных, каким образом он связан…
Заменит ли Apache Kafka прочие СУБД в мире Big Data: за и против
Автор Анна ВичуговаКатегория Kafka, СтатьиВ этой статье мы поговорим про возможность нехарактерного использования Apache Kafka: не как распределенной стримминговой платформы или брокера сообщений, а в виде базы данных. Читайте далее, как Apache Kafka дополняет…