Что не так с Apache Spark на Kubernetes: 5 ключевых недостатков

Spark, Kubernetes, DevOps, администрирование, Hadoop, контейнеризация, MapReduce

Вчера мы рассказывали об основных сценариях запуска Apache Spark на Kubernetes и преимуществах этого варианта развертывания популярного Big Data фреймворка на DevOps-платформе автоматизированного управления контейнеризированными приложениями. Сегодня поговорим про обратную сторону всех этих преимуществ: читайте в нашей статье, каковы основные ограничения и главные недостатки запуска Apache Spark на Kubernetes (K8s). Минусы запуска Apache Spark на Kubernetes При запуске Apache Spark на Kubernetes, следует помнить об ограничениях совместного использования этих Big Data технологий, основных из которых можно назвать следующие: распределенность данных или отсутствие локальности (Data Locality) – в случае кластера K8s для выполнения задачи необходимо перемещать данные по сети, тогда как, например, в Hadoop YARN соблюдался принцип доставки кода к данным. Благодаря этому задачи Spark выполнялись на тех узлах, где лежали Далее …

Зачем вам Apache Bigtop или как собрать свой Hadoop для Big Data

Apache Bigtop, Big Data, Большие данные, обработка данных, архитектура, Hadoop, MapReduce, Hbase

Сегодня поговорим про еще один open-source проект от Apache Software Foundation – Bigtop, который позволяет собрать и протестировать собственный дистрибутив Hadoop или другого Big Data фреймворка, например, Greenplum. Читайте в нашей статье, что такое Apache Bigtop, как работает этот инструмент, какие компоненты он включает и где используется на практике. Что такое Apache Bigtop и при чем тут Gradle с Maven Согласно официальной документации, Bigtop – это проект с открытым исходным кодом от Apache Software Foundation для инженеров данных и Data Scientist’ов, который включает комплексную упаковку, тестирование и настройку ведущих компонентов Big Data инфраструктуры. Bigtop поддерживает широкий спектр компонентов, включая Hadoop, HBase, Spark и другие фреймворки для обработки и хранения больших данных. Bigtop позволяет создать собственные RPM и DEB Hadoop-дистрибутивы, предоставляет Далее …