Что такое Big Data Reconciliation: согласование больших данных c Apache Spark

обучение инженеров данных, курсы дата-инженеров, обучение Spark, курсы Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, Data Lake, облака, SQL, PySpark, AWS Spark

Мы уже рассказывали, почему качество данных является важнейшим аспектом разработки и эксплуатации Big Data систем. Приемлемое для эффективного использования качество массивов информации достигается не только с помощью процессов подготовки датасета к машинному обучению и профилирования данных, но и за счет их согласования. Читайте далее, что такое Data reconciliation, зачем это нужно для бизнеса и как оно реализуется в Apache Spark.   Что такое согласование данных и при чем здесь Big Data Как правило, реализация комплексной Big Data системы, в т.ч. на базе облачных сервисов, например, кластер Hadoop в Google DataProc или аналитика больших данных на веб-сервисах Amazon, начинается c репликации данных из исходных реляционных СУБД в единый репозиторий  — озеро данных (Data Lake). Однако, прежде чем приступить к анализу агрегированных Далее …

Сложности перехода: от локальных Hadoop-кластеров к облачным объектным хранилищам для приложений Apache Spark

курсы по Spark, Apache Spark Для разработчиков и аналитиков больших данных, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Spark SQL, Delta Lake, Data Lake, Data Lake, Hadoop, HDFS

Сегодня поговорим про особенности транзакций в Apache Spark, что такое фиксация заданий в этом Big Data фреймворке, как она связано с протоколами экосистемы Hadoop и чем это ограничивает переход в облако с локального кластера. Читайте далее, как найти компромисс между безопасностью и высокой производительностью, а также чем облачные хранилища отличаются от локальных файловых систем и каким образом это влияет на Spark-приложения. Зачем нужны протоколы фиксации заданий или что не так с облачными Spark-приложениями С учетом стремительной тенденции перехода от локальных решений к облачным, в. т.ч в области Big Data, cloud-хранилища становятся все более востребованными. Например, очень часто локальное озеро данных (Data Lake) на Apache Hadoop HDFS заменяется на Amazon S3 или Delta Lake от Databricks. Подробнее о том, что такое Далее …

Apache Kafka и прочая Big Data для железнодорожников: кейс Deutsche Bahn

курсы по Kafka, Обучение Apache Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Storm, Cassandra, Kubernetes, облака, DevOps

Чтобы добавить в наш новый курс по Apache Kafka для разработчиков еще больше практических примеров, сегодня мы приготовили для вас кейс немецкой железнодорожной компании Deutsche Bahn AG. Читайте далее, почему приложения Kafka Streams заменили Apache Storm и как крупнейшая транспортная компания Германии построила собственную информационную платформу на базе Apache Kafka, Cassandra и Kubernetes в облачном кластере Amazon Web Services. Зачем железнодорожникам Big Data: постановка задачи с точки зрения бизнеса Deutsche Bahn – это основной железнодорожный оператор Германии, акционерное общество со стопроцентным государственным участием [1], которое каждый день обслуживает около 5,7 миллионов пассажиров, управляя 24 тысячами поездов. Почти каждому клиенту требуются сведения о поездке, такие как время отправления и прибытия, платформа, место в очереди при ожидании поезда и прочая важная информация. Далее …

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

курсы по Apache Kafka, Kafka обучение, обучение большим данным, аналитика больших данных, курсы аналитик Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, предиктивная аналитика, ритейл, цифровая трансформация, цифровизация, SQL, DWH, облака

Интерактивная аналитика больших данных — одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры, уходя от традиционного DWH с пакетной обработкой к событийно-стриминговой облачной платформе на базе Apache Kafka и Snowflake. Зачем модному ритейлеру Apache Kafka: постановка задачи с точки зрения бизнеса Компания Boden – это британский ритейлер одежды, основанный в 1991 году. Продажи идут онлайн и по каталогам. Впервые сайт компании boden.com был запущен еще в 1999 году и постоянно развивался. Однако, сегодня, когда шопинг и многие другие активности переходят в интернет, ритейл должен реагировать на запросы пользователей в режиме реального времени. Например, быстро реагировать на возросший интерес и всплеск спроса, вызванный появлением Далее …

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность, Delta Lake, курсы Hadoop, обучение хадуп

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную инфраструктуру для запуска заданий Apache Hadoop и Spark в системах хранения и обработки больших данных (Big Data). Шаги переноса Data pipeline‘ов c локальной экосистемы Hadoop в облако Напомним, Dataproc – это часть Google Cloud Platform, управляемый и настраиваемый облачный сервис Apache Spark и Hadoop, позволяющий использовать open-source инструменты стека Big Data для пакетной обработки, запросов, потоковой передачи и машинного обучения [1]. Вчера мы рассматривали его архитектуру, компонентный состав и принципы работы, а также средства обеспечения информационной безопасность. Сегодня активный переход в облака является одной из наиболее устойчивых тенденций в ИТ-сфере, включая развитие экосистемы Apache Далее …

Как работает облачная аналитика больших данных на Apache Hadoop и Spark в Dataproc

курсы Hadoop, обучение Hadoop, курсы Spark, обучение Spark, Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность

В этой статье рассмотрим архитектуру и принципы работы системы хранения, аналитической обработки и визуализации больших данных на базе компонентов Hadoop, таких как Apache Spark, Hive, Tez, Ranger и Knox, развернутых в облачном Google-сервисе Dataproc. Читайте далее, как подключить к этим Big Data фреймворкам BI-инструменты Tableau и Looker, а также что обеспечивает комплексную информационную безопасность такого SaaS-решения. Облачный Hadoop от Google: что это и кому нужно Как мы уже упоминали, миграция с локальных кластеров в облака остается одним из наиболее востребованных трендов в области Big Data. Не случайно практически каждый SaaS/PaaS-провайдер предлагает полностью готовый или гибко настраиваемый облачный продукт на базе Apache Hadoop и Spark, а также других компонентов для хранения и анализа больших данных. Ценообразование при этом обычно строится по модели Далее …

От HDFS в облака: разбираем Google Cloud Storage Connector for Hadoop

курсы по Hadoop, обучение Hadoop, Hadoop, HDFS, Spark, обработка данных, большие данные, Big Data, облака, PySpark, Google Cloud Storage Connector for Hadoop

Говоря про перспективы развития экосистемы Apache Hadoop с учетом современного тренда на SaaS-подход к работе с большими данными (Big Data), сегодня мы рассмотрим, как работает коннектор облачного хранилища Google для этого фреймворка. Читайте далее, чем HCFS отличается от HDFS и каковы преимущества практического использования Google Cloud Storage Connector for Hadoop. Что такое Google Cloud Storage и зачем ему коннектор к Apache Hadoop Напомним, Google Cloud Storage — это единое хранилище объектов, которое предоставляет доступ к данным через унифицированный API, являясь облачным управляемым решением. Оно поддерживает как высокопроизводительные вычисления, так и архивный вариант использования [1]. Существует несколько способов получить доступ к данным, хранящимся в Google Cloud Storage [2]: через приложения Spark, PySpark или Hadoop с использованием префикса gs: //; в рамках Далее …

Зачем вам Apache Ozone: новая звезда на небосклоне Hadoop

Apache Ozone, Hadoop, HDFS, Spark, обработка данных, большие данные, Big Data, облака, курсы Hadoop

В продолжение темы про новое в экосистеме Apache Hadoop, сегодня мы расскажем о проекте Ozone: как и зачем появилось это масштабируемое распределенное хранилище объектов, чем оно отличается от HDFS, что у него общего с Amazon S3 и как этот фреймворк позволяет совместить преимущества SaaS-подхода с локальными кластерами Big Data.   Что такое Apache Ozone и зачем он нужен: краткая история разработки Первая официальная версия Apache Ozone 0.3.0-alpha была выпущена в ноябре 2018 года [1], хотя этот проект стал известен в ИТ-сообществе еще в декабре 2017 году, в рамках выхода Hadoop 3.0 [2]. В сентябре 2020 года вышла версия 1.0.0 с новой улучшенной схемой файловой системы и оптимизацией связи с Amazon S3 [3]. Появление Apache Ozone (O3) обусловлено следующими факторами [2]: Далее …

Hadoop умер, да здравствует Hadoop!

Hadoop, HDFS, Spark, обработка данных, большие данные, Big Data, облака

В последнее время в мире Big Data все меньше можно услышать новостей про Apache Hadoop. Сегодня рассмотрим, почему мифы о смерти Хадуп – это всего лишь мифы и как будет развиваться эта мощная экосистема хранения и обработки больших данных в будущем. Читайте в нашей статье про слияния и поглощения ведущих вендоров, тренд на облачные сервисы и Google Cloud Storage connector, а также попытки нивелировать ограничения HDFS с помощью Apache Ozone. Apache Hadoop в 2020 году: развитие или забвение При том, что сравнение Apache Hadoop и Spark не совсем корректно, т.к. последний входит в экосистему проектов первого, Спарк выигрывает по множеству показателей [1]: MapReduce работает быстрее за счет операций в памяти, а с жестким диском; микро-пакетный режим позволяет вести потоковую обработку Далее …

Облачное Delta Lake на Apache Spark от Databricks vs классическое озеро данных на Hadoop: 5 главных отличий

Delta Lake Databricks, курсы по Spark, архитектура, обработка данных, большие данные, Big Data, курсы Hadoop, Data Lake

Продолжая разговор про Delta Lake, сегодня мы рассмотрим, чем это быстрое облачное хранилище для больших данных в реализации компании Databricks отличается от классического озера данных (Data Lake) на Apache Hadoop HDFS. Читайте далее, как коммерческое Cloud-решение на Apache Spark облегчает профессиональную деятельность аналитиков, разработчиков и администраторов Big Data. Больше, чем просто облачный Hadoop или Spark: преимущества Delta Lake от Databricks Напомним, наиболее известной коммерческой реализацией open-source технологии Data Lake считается продукт международной компании Databricks [1]. Помимо архитектурных плюсов Apache Spark по сравнению с Hadoop, Databricks привнесла в концепцию облачного масштабируемого и надежного хранилища данных следующие преимущества [2]: Простота администрирования. В кластерах Apache Hadoop системный менеджер ресурсов YARN управляет емкостью и согласованием заданий. При этом балансировка кластерной нагрузки предполагает довольно высокий Далее …