Какой Hadoop лучше: сравнение 4 самых популярных дистрибутивов

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура

Проанализировав предложения крупных PaaS/IaaS-провайдеров по развертыванию облачного кластера, сегодня мы сравним 4 наиболее популярных дистрибутива Hadoop от компаний Cloudera, HortonWorks, MapR и ArenaData, которые используются при развертывании локальной инфраструктуры для проектов Big Data. Как мы уже отмечали, эти дистрибутивы распространяются бесплатно, но поддерживаются на коммерческой основе. Некоторые отличия популярных дистрибутивов Hadoop Несмотря на общую прикладную направленность, каждый из этих продуктов обладает своими уникальными особенностями: корпоративное решение ClouderaCDH включает собственную подсистему управления кластером Cloudera Manager и характеризуется высокой стоимостью технического сопровождения (около $4 тысяч в год за узел кластера), поэтому позволить ее себе могут только очень крупные компании. Cloudera Manager позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки Далее …

Сложно, дорого, универсально: 3 мифа о Hadoop и их опровержения

Большие данные, Big Data, Hadoop, Apache, Cloudera, Hortonworks, администрирование, инфраструктура

Сегодня мы поговорим о заблуждениях насчет базового инфраструктурного понятия хранения и обработки больших данных – экосистеме Hadoop и развеем 3 самых популярных мифа об этой технологии. А также рассмотрим применение Cloudera, Hortonworks, Arenadata, MapR и HDInsight для проектов Big Data и машинного обучения (Machine Learning). Миф №1: Hadoop – это сложно Если настраивать инфраструктуру для Big Data проектов «с нуля», взяв за основу классический дистрибутив проекта Hadoop, развернуть экосистему для больших данных будет довольно трудоемким и длительным процессом, с которым справится не каждый системный администратор. Как правило, чтобы сократить время развертывания и сложность администрирования, используют готовые решения на основе Hadoop: Cloudera, Hortonworks, Arenadata, MapR или HDInsight [1]. Эти продукты уже содержат в себе не только 4 основных модуля хадуп (файловая Далее …

Cloudera выпустила новый релиз Cloudera Enterprise 6.0

10 сентября 2018 г. компания Cloudera  выпустила новую платформу для построения решений Data Warehousing и Machine Learning  предназначенную для унификации контроля и управления длительными и  переходящими нагрузками в Public Clouds и центрах данных с испольованием нового решения Cloudera Altus.   Cloudera Enterprise 6.0 построенная поверх новой версии дистрибутива Apache Hadoop 3.0  добавляет ряд новых улучшений в  состав и характеристики компонент решения: Cloudera Altus Director — решение для управления несколькими высилительными кластерами и кластерами данных  в гибридном облаке. Новая версия Solr — полнотекстовый поисковый двиок с новыми аналитическими возможностями для текстового поиска Новая версия HBase — columnar data store Новая версии решения для управления и развертывания кластеров для Hadoop (Cloudera Manager) Новая версия Hive -инструмент для выполнения ELT преобразований данных с использованием Далее …