MapR

мапр, MapRDataTechnologies

MapR Convergent Data Platform (MapRCDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, а также средств собственной разработки американской компании MapR для больших данных (Big Data) и машинного обучения (Machine Learning) [1].

Существует три версии MapRCDP:

  1. Community Edition (M3) — бесплатная версия сообщества;
  2. Enterprise Edition (M5) — обеспечивает высокую доступность и защиту данных, включая мультиузловый NFS;
  3. Enterprise Database Edition (M7) – включает данные структурированных таблиц изначально на уровне хранилища и предоставляет гибкую базу данных NoSQL.

MapRCDP может быть установлен на многих версиях Red Hat Enterprise Linux, CentOS, Ubuntu, Oracle Linux и SUSE. 

Состав и архитектура MapR

Как и другие популярные дистрибутивы Hadoop (Cloudera, HortonWorks, ArenaData), кроме его основных модулей, MapR содержит дополнительные продукты для работы с большими данными и машинным обучением:

  • решения для интеграции, управления потоками и доступа к данными (Flume, Sqoop, Hue, HttpFs);
  • фреймворки для распределённой и потоковой обработки, а также брокеры сообщений (Spark, Storm, Kafka)
  • нереляционные СУБД и SQL-движки для Big Data аналитики (HBase, Hive, Impala, Spark SQL, Drill);
  • координаторы и планировщики задач (Zookeeper, Sahara, Oozie);
  • средства Machine Learning (Mahout, MLlib);
  • высокоуровневый язык программирования запросов к большим слабоструктурированным наборам данных (Pig);
  • продукт полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом (Solr).
состав архитектура модули MapR Convergent Data Platform
Модули дистрибутива MapR Convergent Data Platform

Однако, в отличие от других дистрибутивов Hadoop (Cloudera, HortonWorks, ArenaData, HDInsight), вместо HDFS (Hadoop Distributed File System), MapR использует свою распределенную файловую систему – MapR-FS, а также свою базу данных – MapR-DB.

История появления и развития

2009 – год основания компании выходцами из корпорации Google, Lightspeed Venture Partners, Informatica, EMC Corporation and Veoh [1]

2011 – выпуск корпоративного дистрибутива Apache Hadoop с собственной распределенной файловой системой (MapR-FS) [2];

2012MapR стал поддерживать операционные системы Windows и Mac OS [3].

2013 – выпуск MapR DB, NoSQL СУБД с поддержкой Apache HBase API и JSON документов [2];

2014 – выпуск Apache Drill, механизма SQL-запросов с низкой задержкой для широкомасштабных наборов данных, включая структурированные и полуструктурированные/вложенные данные, в т.ч.  в форматах JSON и Parquet. Также Drill способен выполнять динамическое обнаружение схемы [4].

2015 – выпуск MapR Streams, масштабируемой системы передачи сообщений, поддерживающую Apache Kafka API и обладающую высокой производительностью и пропускной способностью [2]

Применение MapRCDP

Наиболее ярким примером использования MapRCDP в качестве основы для Big Data инфраструктуры является индийский проект Aadhaar по построению государственной системы идентификации. Его суть состоит в реализации биометрической базу данных населения, чтобы идентифицировать гражданина Индии на основе его отпечатков пальцев и сканирования радужной оболочки глаза. Проект запущен в 2009 году и работает на основе MapRCDP. Уже более 1 миллиарда жителей зарегистрированы в системе, что составляет 95% взрослого населения Индии. Каждый день в системе регистрируются 500000 новых пользователей. Более 100 миллионов авторизаций выполняется системой ежедневно. Среднее время отклика – 200 миллисекунд. Система использует зеркало MapRCDP для большей доступности и для предотвращения ошибок, поэтому даже перебои электричества или сети выведут ее из строя [2]

Mapr Apache Hadoop
компоненты дистрибутива Hadoop от компании MapR

Все о настройке, администрировании и использовании инфраструктуры Hadoop для больших данных и машинного обучения на наших компьютерных курсах обучения инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:

Источники

  1. https://en.wikipedia.org/wiki/MapR
  2. https://habr.com/ru/post/313390/
  3. https://www.itweek.ru/idea/article/detail.php?ID=144155
  4. http://qaru.site/questions/tagged/apache-drill

Related Entries