
Недавно мы разбирали особенности интеграции Apache Kudu и Spark. В продолжение этой темы, сегодня поговорим про некоторые особенности выполнения SQL-операций с данными при интеграции этих Big Data фреймворков, а также рассмотрим пример записи данных в мульти-мастерный кластер Куду через Impala с помощью API Data Frame на PySpark. Что приносит Kudu в Spark: 3 преимущества совместного использования Напомним, Apache Kudu – это механизм хранения больших данных с открытым исходным кодом для экосистемы Hadoop, который обеспечивает высокоскоростную аналитику Big Data практически в режиме онлайн, соблюдая баланс между высокой пропускной способностью для объемных сканирований и низкой задержкой для произвольного доступа. Совмещая Spark и Kudu, можно создавать приложения, которые с помощью SQL запрашивают и анализируют постоянно изменяющиеся наборы данных. При этом производительность системы остается Далее …