Облачный слон для больших данных: обзор 6 популярных Hadoop-решений

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, облака

Мы уже рассказывали про общие достоинства и недостатки облачных Hadoop-кластеров для проектов Big Data и сравнивали локальные дистрибутивы. В продолжение этой темы, в сегодняшней статье мы подготовили для вас сравнительный обзор наиболее популярных PaaS/IaaS-решений от самых крупных иностранных (Amazon, Microsoft, Google, IBM) и отечественных (Яндекс и Mail.ru) провайдеров [1].

Корпоративные облачные сервисы доля рынка
Сравнение популярности PaaS-решений [1]

Сравнение облачных кластеров Hadoop от популярных PaaS-провайдеров

Для сравнения выбраны следующие характеристики:

  • состав экосистемы;
  • средства обеспечения надежности и безопасности;
  • примерная стоимость решения – отметим, что данная метрика является ориентировочной и зависит от конкретной конфигурации кластера, а также потребляемых ресурсов.

PaaS-решение

Состав экосистемы

Надежность и безопасность

Стоимость

Amazon EMR (Amazon), интеграция со всеми веб-сервисами Amazon

 

Apache Hadoop 2.x, Hive, Pig, HBase, Impala, Spark, Tez, Oozie, Flink, Zeppelin, Hue, Presto, HCatalog, Machout, MXNet, Sqoop, поддержка языков программирования Scala, Pig, R, Python, SQL, HiveQL

Политики доступа, ведения журналов и аудита на уровне аккаунта и объектов. Защищенные протоколы HTTPS и SSH, аутентификация и шифрование данных. Непрерывный мониторинг действий по доступу к данным, выявление отклонений с помощью алгоритмов машинного обучения и генерация предупреждений при обнаружении рисков несанкционированного доступа или утечки данных. Хранение данных в датацентрах на территории США. В настоящее время в России отсутствуют ЦОДы (центры обработки данных) Amazon.

Плата начисляется на основе посекундного тарифа за каждую секунду использования, минимальный уровень оплаты составляет одну минуту.  Стоимость Amazon EMR составит 0,015 USD в час (примерно 1 рубль) за 1 узел дополнительно к стоимости Amazon EC2 [2].

HDInsight (Microsoft), интеграция со всеми службами Microsoft Azure, Active Directory и Apache Ranger с пакетом безопасности корпоративного уровня

Apache Hadoop 2.x, Spark, Kafka, HBase, Storm, Интерактивный запрос, Службы машинного обучения HDInsight

Поддержка защищенного шлюза в виртуальной сети Azure. управление доступом на основе ролей и шифрование в службе хранилища. Хранение данных в датацентрах на территории США, Европы и Азии. В настоящее время в России отсутствуют ЦОДы Microsoft.

Плата за использование кластеров начисляется поминутно. Узлы различаются в зависимости от группы (рабочий узел, головной узел и т. д.), количества и типа экземпляра. Стоимость за узел в час варьируется от 10 до 300 рублей [3].

Analytics Engine (IBM), интеграция с хранилищем данных IBM Cloud Object Storage и другими сервисами IBM, в частности, Watson™ Studio и Machine Learning

Apache Hadoop 2.x, Livy, Knox, Spark, JEG, Ambari, 
Anaconda Py, Hive, HBase, Phoenix, Oozie

Аутентификация пользователей, изоляция и шифрование данных (SSL, REST). Хранение данных в датацентрах на территории США, Европы и Азии. В настоящее время в России отсутствуют ЦОДы IBM.

Почасовая тарификация от $0.7 до $2,640 за узел, в зависимости от его конфигурации. Есть бесплатная версия с ограниченным числом часов и узлов [4].

Dataproc (Google Cloud Platform), интеграция со всеми веб-сервисами Google

Apache Hadoop 2.x, Spark, Hive, Pig, ZooKeeper, Zeppelin, Presto,

Аутентификация пользователей, изоляция и шифрование данных с использованием протокола Kerberos. Управление доступом на основе ролей и групп. Хранение данных в датацентрах на территории США, Европы и Азии. В настоящее время в России отсутствуют ЦОДы Google.

Почасовая тарификация от $0.01 до $1,640 за узел, в зависимости от его конфигурации [5].

MCS (Mail.ru), интеграция со всеми  сервисами Mail.Ru Cloud Solutions: S3-совместимым объектным хранилищем, виртуальными машинами, кластерами Kubernetes, вычислениями на базе GPU

Apache Hadoop 2.x, Tez, Hive, HBase, Pig, ZooKeeper, Storm, Kafka, Spark2, Zeppelin Notebook, Sqoop, Oozie, Falcon, Flume, Accumulo, Ambari Infra, Ambari Metrics, Atlas, Knox, Log Search, Ranger, Ranger KMS, SmartSense, Spark, Druid, Kerberos, Mahout, Slider, Superset, Jupyter, Jupyter Hub, Airflow

Приватная сеть с компонентами Hadoop и другими сервисами локальной IT-инфраструктуры для создания гибридного облака. Хранение данных строго на территории РФ, в ЦОДах уровня TIER III, с тройной репликацией и непрерывным мониторингом безопасности.

Оплата посекундно, за фактически потребленный дисковый объем. Не нужно платить за RAM и CPU остановленных виртуальных машин. Кластер Hadoop из 10 узлов — 39 ₽/час [6].

Yandex Data Proc (Яндекс.Облако), интеграция со всеми сервисами и приложениями Яндекса

·       Apache Hadoop 2.x, Tez, Hive, HBase, ZooKeeper, Spark, Zeppelin Sqoop, Oozie, Flume

Управление доступом на основе ролей, изоляция и шифрование данных, защищенный HTTPS-протокол для доступа. ЦОДы Яндекса являются режимными объектами на территории РФ.

Оплата только за время использование узлов. Пока сервис Yandex Data Proc находится на стадии Preview и не тарифицируется [7].

 

Вышеприведенная таблица позволяет сделать следующие выводы:

  • наиболее широкий набор встроенных средств для Big Data и Machine Learning содержат решения от Mail.Ru Cloud Solutions и Amazon Web Services (AWS);
  • каждый провайдер обещает бесперебойную доступность кластера и веб-сервисов – более 99% по SLA (Service Level Agreement, соглашение об уровне предоставления услуги) за счет защищенных протоколов, резервирования каналов передачи информации, шифрования SSH, изоляции данных, аутентификации и гибких настроек политики безопасности на основе ролей;
  • ЦОДы большинства провайдеров расположены в США, Европе и Азии, поэтому пока только Mail.Ru Cloud Solutions и Яндекс.Облако соблюдают требования российского законодательства о хранении персональных данных россиян на территории страны (ФЗ № 242-ФЗ от 21 июля 2014 г.), интернет трафика и шифровании (ФЗ № 374-ФЗ от 6 июля 2016 г. и № 375-ФЗ от 6 июля 2016 г.) [8];
  • практически все провайдеры перешли на ценообразование по потребленным ресурсам, тарифицируя их использование по секундам, минутам или часам, однако, например, при использовании AWS к этим затратам прибавляется стоимость самого продукта (Amazon EC2);
  • среди зарубежных решений AWS и Microsoft Azure считаются наиболее востребованными облачными платформами в корпоративном секторе (Enterprise) [1].
Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, облака
Облачный Hadoop-кластер — отличное решение для ваших больших данных

Как самостоятельно развернуть, настроить, администрировать и обеспечить безопасность Hadoop-кластера для проектов Big Data в облачной или локальной ИТ-инфраструктуре, узнайте в нашем учебном центре – практические курсы обучения пользователей, инженеров, администраторов и аналитиков больших данных в Москве:

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Смотреть расписание занятий
регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning Зарегистрироваться на курс

Источники

  1. http://la.by/blog/sravnenie-uslug-oblachnyh-provayderov-microsoft-azure-aws-ili-google-cloud
  2. https://aws.amazon.com/ru/getting-started/projects/analyze-big-data/services-costs/
  3. https://azure.microsoft.com/ru-ru/pricing/calculator/?service=hdinsight
  4. https://www.ibm.com/ru-ru/cloud/analytics-engine/pricing
  5. https://cloud.google.com/dataproc/pricing
  6. https://mcs.mail.ru/bigdata/
  7. https://cloud.yandex.ru/docs/data-proc/pricing
  8. https://www.bigdataschool.ru/bigdata/hadoop-в-облаках.html

 

 

Один комментарий к “Облачный слон для больших данных: обзор 6 популярных Hadoop-решений”

Комментарии закрыты.