Какие бывают форматы файлов Big Data: row vs column

Big Data файлы, Apache AVRO, Sequence, Parquet, ORC, RCFile

Продолжая разговор про форматы Big Data файлов, сегодня мы рассмотрим разницу между линейными и колоночными типами, а также расскажем о том, как выбирать между AVRO, Sequence, Parquet, ORC и RCFile при работе с Apache Hadoop, Kafka, Spark, Flume, Hive, Drill, Druid и других средствах работы с большими данными. Итак, форматы файлов Big Data – все, что нужно для начинающего Data Engineer’а – читайте в нашей статье. 2 типа форматов для Big Data файлов Все многообразие файловых форматов Big Data (AVRO, Sequence, Parquet, ORC, RCFile) можно разделить на 2 категории: линейные (строковые) и колоночные (столбцовые). В линейных форматах (AVRO, Sequence) строки данных одного типа хранятся вместе, образуя непрерывное хранилище. Даже если необходимо получить лишь некоторые значения из строки, все равно вся Далее …

Сложно, дорого, универсально: 3 мифа о Hadoop и их опровержения

Большие данные, Big Data, Hadoop, Apache, Cloudera, Hortonworks, администрирование, инфраструктура

Сегодня мы поговорим о заблуждениях насчет базового инфраструктурного понятия хранения и обработки больших данных – экосистеме Hadoop и развеем 3 самых популярных мифа об этой технологии. А также рассмотрим применение Cloudera, Hortonworks, Arenadata, MapR и HDInsight для проектов Big Data и машинного обучения (Machine Learning). Миф №1: Hadoop – это сложно Если настраивать инфраструктуру для Big Data проектов «с нуля», взяв за основу классический дистрибутив проекта Hadoop, развернуть экосистему для больших данных будет довольно трудоемким и длительным процессом, с которым справится не каждый системный администратор. Как правило, чтобы сократить время развертывания и сложность администрирования, используют готовые решения на основе Hadoop: Cloudera, Hortonworks, Arenadata, MapR или HDInsight [1]. Эти продукты уже содержат в себе не только 4 основных модуля хадуп (файловая Далее …

Оптимизация запросов JOIN в Apache HIVE

В последних версиях Apache HIVE пытается внедрить CBO (cost based optimizer) и оптимизация операций JOIN одна из главных его составляющих. Поэтому понимание сценариев  оптимизации применения операций JOINs (объединений) является одним из ключевых факторов настройки производительности HiveQL. Рассмотрим каждый вид объединений на практических примерах и определим их различия: Shuffle Join (Common Join) – общее объединение или объединение в случайном порядке Этот вид объединений используется по умолчанию и включает map и reduce этапы для пофазного выполнения обьединения таблиц. Mapper: считывает таблицы и выводит пары ключ-значение соединения в промежуточный файл. Shuffle: пары ключ-значение сортируются и объединяются для передачи на соответствующий узел  где будет выполнятся фаза Reduce. Reducer: получает отсортированные данные и выполняет объединение (JOIN). Варианты использования: Работает для таблиц любого размера, особенно, когда Далее …