Бакетирование vs партиционирование в Apache Hive и Spark

Автор Категория , ,
Бакетирование vs партиционирование в Apache Hive и Spark

В этой статье рассмотрим 2 способа физической группировки данных для ускорения последующей обработки в Apache Hive и Spark: партиционирование и бакетирование. Чем они отличаются друг от друга, что между ними…

Графовая аналитика больших данных с DataStax Enterprise Graph на Cassandra и Spark SQL

Автор Категория ,
Графовая аналитика больших данных с DataStax Enterprise Graph на Cassandra и Spark SQL

В рамках продвижения нашего нового курса по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим, что такое DataStax Enterprise Graph. Читайте далее, как немецкая ИТ-компания Traversals с помощью этой распределенной графовой…

Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных

Автор Категория , , ,
Не только Apache Kafka и Spark Streaming: 3 платформы потоковой аналитики больших данных

Продолжая недавний разговор про потоковую передачу событий и соответствующие Big Data инструменты, сегодня рассмотрим не отдельные фреймворки обработки данных в режиме реального времени, а комплексные платформы, которые объединяют сразу несколько…

5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Автор Категория ,
5 главных плюсов облачного развертывания VMware Tanzu Greenplum

Продвигая наши курсы по Greenplum и Arenadata DB, сегодня рассмотрим, что представляет собой облачная платформа VMware Tanzu Greenplum, где ее можно развернуть и каковы преимущества cloud-решения по сравнению с локальной…

Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Автор Категория , ,
Интерактивная аналитика больших данных с Apache Spark SQL и Livy: кейс Pinterest

Сегодня в качестве полезного примера для обучения дата-инженеров и разработчиков Spark-приложений, разберем кейс компании Pinterest по интерактивной аналитике больших данных средствами SQL-модуля этого популярного фреймворка. Читайте далее, почему дата-инженеры решили…

Пакетная обработка событий с Apache Kafka: прикладная дата-инженерия

Автор Категория ,
Пакетная обработка событий с Apache Kafka: прикладная дата-инженерия

Хотя Apache Kafka стала стандартом де-факто для потоковой передачи событий, на этой платформе можно реализовать и пакетный режим вычислений. В рамках обучения дата-инженеров, сегодня рассмотрим, как совместить пакетную парадигму обработки…

Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

Автор Категория , ,
Apache Iceberg для Data Lake: что это такое, зачем нужно и как работает

В недавней статье про преимущества хранилища метаданных Apache Hive и другие плюсы этого популярного инструмента SQL-on-Hadoop, мы упоминали формат открытых таблиц Iceberg как альтернативу для хранения огромных наборов аналитических данных.…

Графовые СУБД vs реляционные: основы Neo4j и Cypher

Автор Категория ,
Графовые СУБД vs реляционные: основы Neo4j и Cypher

Продвигая наш новый курс по графовой аналитике больших данных в бизнес-приложениях, сегодня рассмотрим ключевые отличия графовых СУБД от реляционных, а также познакомимся с основами Neo4j и ее языком запросов –…

Как графовая аналитика спасает ваши деньги: пара реальных кейсов

Автор Категория ,
Как графовая аналитика спасает ваши деньги: пара реальных кейсов

Сегодня рассмотрим, как методы графовой аналитики больших данных помогают бороться с эпидемией финансовых мошенничеств: выявлять номера злоумышленников, идентифицировать фрод-транзакции, выявлять и предотвращать схемы отмывания денег. Читайте далее, что под капотом…

Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

Автор Категория , , ,
Потоковая аналитика больших данных на Flink SQL и Redpanda вместо Apache Spark с Kafka

В продолжение недавней статьи для дата-инженеров про альтернативные платформы потоковой передачи событий вместо Apache Kafka, сегодня рассмотрим пример аналитики больших данных средствами Flink SQL, записи результатов в Elasticsearch и их…