ClickHouse

Big Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH

Полная история разработки, архитектура и принципы работы, достоинства и недостатки, а также примеры использования ClickHouse в Big Data проектах

Cloudera

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1]. Состав и архитектура Клаудера CDH Помимо классического Hadoop от Apache Software Foundation, состоящего из 4-х основных модулей (HDFS, MapReduce, Yarn и Hadoop Common), CDH также содержит дополнительные решения Apache для работы с большими данными и машинным обучением: инструменты для управления потоками данных (Flume, Sqoop); фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka) СУБД для Big Data аналитики (HBase, Hive, Impala); высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных Далее …