Конфигурирование исполнителей Spark-заданий в AWS: ядра ЦП и проблемы с памятью

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Apache Spark Для инженеров данных курсы обучение, экономика больших данных, Big Data AWS кейс оптимизации расходов

Продолжая вчерашний разговор про оптимизацию Spark-приложений в облачном кластере Amazon Web Services, сегодня рассмотрим типовую последовательность действий по конфигурированию заданий и настройке узлов для снижения затрат на аналитику больших данных. А также разберем, какие проблемы с памятью исполнителей могут при этом возникнуть, и как инженеру Big Data их решить. Еще раз об эффективной утилизации ресурсов кластера: ядра ЦП для исполнителей Spark-заданий в облаке AWS Расходы на облако AWS определяются числом узлов в кластере, которое зависит от того, насколько эффективно каждый узел, где развернут исполнитель Spark-приложения, использует ресурсы (ЦП и память). Когда в доступной памяти узла не помещается новый исполнитель, для него добавляется новый узел в кластер, увеличивая расходы на облако AWS, о чем мы рассказывали вчера. Поэтому для комплексного улучшения Далее …

Как сэкономить на AWS-кластере: экономика Big Data и конфигурирование облачных Spark-приложений

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Apache Spark Для инженеров данных курсы обучение, экономика больших данных, Big Data AWS кейс оптимизации расходов

В рамках обучения администраторов Apache Hadoop и инженеров Big Data, сегодня поговорим про стоимость аналитики больших данных с помощью Spark-приложений в облачном кластере Amazon Web Services и способы снижения этих затрат за счет конфигурирования заданий и настройки узлов. Читайте в этой статье, как число процессорных ядер в исполнителях Spark-заданий формирует расходы на облако AWS и каким образом можно повысить эффективность использования ресурсов, в т.ч. с экономической точки зрения. От чего зависят расходы на Spark-кластер в облаке AWS: краткий ликбез по экономике Big Data Чтобы снизить стоимость выполнения Spark-заданий в облаке AWS, рассмотрим, из чего складываются эти затраты. Итак, каждый раз, когда дата-инженер отправляет на исполнение Spark-задание, он задает 4 основных параметра, которые и определяют эффективность его выполнения [1]: —num-executors – Далее …

Как перейти на Apache Kafka без Zookeeper: готовимся к KIP-500 в релизе 2.8.0

Kafka, Zookeeper, курсы Kafka, обучение Apache Kafka, курсы Kafka администратор кластера, администрирование Big Data кластера Кафка обучение, Big Data, Большие данные, обработка данных

Спустя пару месяцев с выпуска Apache Kafka 2.7.0, Confluent анонсировал новый релиз этой платформы потоковой передачи событий, в котором, наконец, случится долгожданный отказ от Zookeeper. Читайте далее, как это облегчит жизнь администратору Kafka-кластера и разработчику распределенных приложений потоковой аналитики больших данных, а также как подготовить свою Big Data инфраструктуру к таким изменениям. 13 плюсов KIP-500 для администратора и разработчика Big Data Уже совсем скоро, в марте 2021 года, ожидается новый релиз Apache Kafka 2.8.0 [1], главной фишкой которого будет долгожданный KIP-500 (Kafka Improvement Proposal) по отказу от Zookeeper, как обязательной части Кафка-кластера. Напомним, до сих пор Kafka использует сервис синхронизации распределенных систем Apache ZooKeeper для хранения метаданных, таких как расположение разделов и конфигурация топиков. Вопрос ухода от Зукипер был поднят Далее …

3 задания по Apache Hadoop для чайников: развлекательная проверка знаний

курсы Hadoop, Apache Hadoop Обучение, бесплатный тест по большим даннымBig Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hive, HDFS, Hadoop

Сегодня в качестве пятничного развлечения для дата-инженеров, разработчиков распределенных приложений, администраторов, аналитиков и других специалистов по большим данным мы приготовили небольшой квиз по Apache Hadoop. Проверьте свое знание главной технологии Big Data, решив кроссворд, филворд и небольшой тест по основным компонентам и главным принципам работы этой платформы хранения и аналитики больших данных. Кроссворд по Apache Hadoop Просто поставьте курсор в ячейку и впечатайте букву с клавиатуры.   Филворд по Хадуп В этом квадрате нужно найти 10 терминов, которые относятся к экосистеме Хадуп. Выделяйте найденные слова слева направо по горизонтали, сверху вниз по вертикали и по диагонали с левого верхнего угла в правый нижний. Верно отмеченное слово выделится цветом. Мини-тест по большому слону   В заключение отметим, что все эти упражнения Далее …

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность, Delta Lake, курсы Hadoop, обучение хадуп

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную инфраструктуру для запуска заданий Apache Hadoop и Spark в системах хранения и обработки больших данных (Big Data). Шаги переноса Data pipeline‘ов c локальной экосистемы Hadoop в облако Напомним, Dataproc – это часть Google Cloud Platform, управляемый и настраиваемый облачный сервис Apache Spark и Hadoop, позволяющий использовать open-source инструменты стека Big Data для пакетной обработки, запросов, потоковой передачи и машинного обучения [1]. Вчера мы рассматривали его архитектуру, компонентный состав и принципы работы, а также средства обеспечения информационной безопасность. Сегодня активный переход в облака является одной из наиболее устойчивых тенденций в ИТ-сфере, включая развитие экосистемы Apache Далее …

Как работает облачная аналитика больших данных на Apache Hadoop и Spark в Dataproc

курсы Hadoop, обучение Hadoop, курсы Spark, обучение Spark, Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность

В этой статье рассмотрим архитектуру и принципы работы системы хранения, аналитической обработки и визуализации больших данных на базе компонентов Hadoop, таких как Apache Spark, Hive, Tez, Ranger и Knox, развернутых в облачном Google-сервисе Dataproc. Читайте далее, как подключить к этим Big Data фреймворкам BI-инструменты Tableau и Looker, а также что обеспечивает комплексную информационную безопасность такого SaaS-решения. Облачный Hadoop от Google: что это и кому нужно Как мы уже упоминали, миграция с локальных кластеров в облака остается одним из наиболее востребованных трендов в области Big Data. Не случайно практически каждый SaaS/PaaS-провайдер предлагает полностью готовый или гибко настраиваемый облачный продукт на базе Apache Hadoop и Spark, а также других компонентов для хранения и анализа больших данных. Ценообразование при этом обычно строится по модели Далее …

Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами

курсы по Apache AirFlow, обучение инженеров данных, обучение Apache AirFlow, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps

Вчера мы рассматривали проблему управления накладными расходами в сложных конвейерах обработки больших данных на примере использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Сегодня разберем, как именно инженеры компании решили проблему роста накладных расходов, отделив бизнес-логику от логики оркестрации в конвейерах Spark-заданий. Читайте далее про принципы проектирования Big Data Pipeline’ов в соответствии с лучшими практиками DataOps. Как спроектировать Data Pipeline: отличия бизнес-логики от логики оркестрации Обычно конвейеры обработки данных отражают структуру базового приложения. При этом можно попасть в ситуацию, когда задания отправляются в кластер через скрипт Spark-submit, предоставляемый Apache Spark. Скрипту нужно предоставить класс, который соответствует одной задаче в конвейере. Как правило, классы разрабатываются в соответствии с традиционными принципами программной инженерии, выполняя одну операцию преобразования с узкой областью видимости. Далее …

Apache Kafka, микросервисы и проблема удаления данных: 5 практических примеров

курсы по Kafka, обучение Apache Kafka с примерами, обработка данных, большие данные, Big Data, Kafka, администрирование, архитектура, Agile, DevOps

Чтобы сделать наши курсы по Apache Kafka для разработчиков Big Data систем еще более интересными, а обучение – запоминающимся, сегодня мы рассмотрим еще несколько примеров реализации микросервисной архитектуры на этой стриминговой платформе. А также поговорим про проблемы удаления данных в этой архитектурной модели, разобрав кейс компании Twitter по построению корпоративного конвейера стирания данных на базе Kafka.   Микросервисная event-streaming архитектура на Apache Kafka: 5 разных примеров и парочка общих проблем Сегодня микросервисная архитектура стала фактически стандартом де-факто: все больше компаний приходят к этой модели, разделяя «монолиты» своих систем на множество небольших сервисов, каждый из которых решает узко направленную задачу. При некоторых сложностях архитектурного проектирования, данный подход повышает гибкость и расширяемость программных систем, позволяя расширять их функциональные возможности путем добавления новых Далее …

Зачем вам Apache Ozone: новая звезда на небосклоне Hadoop

Apache Ozone, Hadoop, HDFS, Spark, обработка данных, большие данные, Big Data, облака, курсы Hadoop

В продолжение темы про новое в экосистеме Apache Hadoop, сегодня мы расскажем о проекте Ozone: как и зачем появилось это масштабируемое распределенное хранилище объектов, чем оно отличается от HDFS, что у него общего с Amazon S3 и как этот фреймворк позволяет совместить преимущества SaaS-подхода с локальными кластерами Big Data.   Что такое Apache Ozone и зачем он нужен: краткая история разработки Первая официальная версия Apache Ozone 0.3.0-alpha была выпущена в ноябре 2018 года [1], хотя этот проект стал известен в ИТ-сообществе еще в декабре 2017 году, в рамках выхода Hadoop 3.0 [2]. В сентябре 2020 года вышла версия 1.0.0 с новой улучшенной схемой файловой системы и оптимизацией связи с Amazon S3 [3]. Появление Apache Ozone (O3) обусловлено следующими факторами [2]: Далее …

Kafka Connect для мониторинга событий и метрик: настраиваем JSON для интеграции с New Relic

Big Data, Большие данные, обработка данных, Kafka, архитектура, администрирование

Мы уже писали, что такое Kafka Connect и как этот инструмент обеспечивает потоковую передачу данных между Apache Kafka и другими системами на примере интеграции с Elasticsearch. Сегодня рассмотрим новый коннектор, который позволяет загружать данные из топиков Apache Kafka в платформу удаленного мониторинга работоспособности мобильных и веб-приложений New Relic через гибкий REST API. Читайте далее про мониторинг телеметрии и событийно-потоковую обработку данных в виде JSON-конфигураций.   Телеметрия приложений или за чем следить будем Прежде всего, поясним, что такое New Relic и зачем это нужно. New Relic – это телеметрическая платформа удаленного мониторинга мобильных и веб-приложений, которая позволяет собирать, исследовать и получать оповещения обо всех данных телеметрии из любого источника в одном месте. Готовая интеграция с open-source инструментами упрощает настройку, устраняя затраты и сложности Далее …