Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

07Мар

Аутентификация пользователей Apache NiFi с OIDC от Okta

Автор Анна Вичуговав категории NiFi, Блог

обучение дата-инженеров и администраторов кластера Apache NiFi, Apache NiFi курсы примеры обучение, аутентификация пользователей Apache NiFi, обучение большим данным, Apache NiFi OIDC autentification курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Для практического обучения разработчиков Data Flow и инженеров данных, сегодня разберем способ аутентификации пользователей Apache NiFi на примере Okta OIDC в качестве сервиса провайдера удостоверений. Также вспомним другие способы аутентификации пользователей в этом потоковом маршрутизаторе. Аутентификация в Apache NiFi: краткий ликбез Apache NiFi поддерживает различные типы методов аутентификации пользователей: с...

06Мар

Не только MSCK REPAIR TABLE: добавляем разделы в хранилище метаданных Hive с оператором AirFlow и Apache Spark

Автор Анна Вичуговав категории Hive, NoSql, Блог

обучение Hadoop Hive SQL, примеры курсы Hive Hadoop HDFS SQL, курсы дата-инженеров, инженерия данных Hadoop Hive SQL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое MSCK REPAIR TABLE в Apache Hive, зачем нужна эта команда, ее достоинства и недостатки, а также альтернативные варианты для задач пакетной дата-инженерии. Разбираем на примере конвейера обработки данных в ML-приложениях при работе с Data Lake. Команда MSCK REPAIR TABLE в Apache Hive В ML-приложениях особенно важно, как озеро данных (Data...

04Мар

Не просто Apache Solr: краткий обзор Tanzu Greenplum Text

Автор Анна Вичуговав категории Greenplum, Блог

Tanzu Greenplum Text Apache Solr Elasticsearch полнотекстовый анализ Arenadata DB обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, Greenplum Arenadata DB для разработчиков и аналитиков курсы примеры обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня заглянем под капот Tanzu Greenplum Text: архитектура и принципы работы этого средства поиска и анализа текстов, интегрированного с популярной MPP-СУБД. Как движок наподобие Elasticsearch связывает кластер Apache Solr с базой данных Greenplum и зачем здесь нужен Zookeeper. Что такое Tanzu Greenplum Text Мы уже рассказывали про основные функциональные возможности...

03Мар

Микросервисная архитектура с Neo4j, Kafka и Outbox-паттерном проектирования

Автор Анна Вичуговав категории Kafka, Neo4j, Блог

обучение Neo4j, обучение Kafka, курсы Neo4j, курсы Kafka, курсы ИТ-архитекторов Big Data, Обучение большим данным, паттерны проектирования микросервисной архитектуры с Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В рамках обучения ИТ-архитекторов и разработчиков распределенных приложений рассмотрим, что представляет собой Transactional Outbox и как этот паттерн проектирования микросервисной архитектуры можно реализовать с помощью Neo4j и Apache Kafka, чтобы создать масштабируемый, общий и абстрактный способ запроса информации независимо от типа объекта. Постановка задачи: проблемы микросервисной архитектуры и способы их...

02Мар

Синхронные и асинхронные продюсеры: Graceful shutdown для Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka для разработчиков и администраторов, Apache Kafka Graceful shutdown, администрирование кластера Apache Kafka примеры курсы обучение, Kafka Kubernetes, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали, что такое Graceful shutdown на примере Spark Streaming. Сегодня разберем реализацию этой идеи плавного завершения задач в потоковой обработке данных применяется в компании Carwow при работе с Apache Kafka и dyno-контейнерами приложений Heroku. Потоковая обработка данных и проблема завершения потоковых заданий в контейнерах Heroku Carwow - британская...

01Мар

Аналитика больших данных в реальном времени с Apache Kafka, Spark, ClickHouse и S3

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы Kafka Spark ClickHouse обучение архитектура пример, аналитика больших данных, дата-инженер курсы примеры обучение Kafka Spark, обучение разработчиков распределенных приложений и ИТ-архитекторов большим данным, Школа Больших Данных Учебный Центр Коммерсант

Практический пример аналитики больших данных в реальном времени с Apache Spark, Kafka, ClickHouse и AWS S3: возможности, архитектура, также специально для дата-инженеров и разработчиков распределенных приложений рассмотрим, сколько времени нужно для разрешения каждого вызова API в определенном временном диапазоне. Анализ событий пользовательского поведения в реальном времени Основным продуктом международной ИТ-компании...

28Фев

Внешний датчик в Apache Airflow для поэтапной загрузки данных в таблицы DWH

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow примеры курсы обучение, обучение дата-инженеров, инженер данных курсы примеры обучение, external sensor airflow example, инженерия данных с Apache AirFlow пример, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Мы уже писали про датчики или сенсоры - особый тип операторов Apache AirFlow, предназначенных для ожидания какого-то события. Сегодня рассмотрим практический пример обучения дата-инженеров и разработчиков по использованию внешнего сенсора в рамках типовой задачи дата-инженерии по организации ETL/ELT-процессов при поэтапной загрузке данных в DWH для OLAP-систем. Постановка задачи: поэтапная загрузка...

27Фев

Cloudera Operational Database: комплексная платформа данных на Apache HBase и Phoenix

Автор Анна Вичуговав категории HBase, NoSql, Блог

Cloudera Data Platform Operational Database HBase, HBase Phoenix курсы примеры обучение, обучение Hadoop SQL администраторов, курсы HBase Hadoop HDFS SQL, обучение NoSQL, курсы NoSQL HBase примеры, HBase Phoenix SQL-on-Hadoop HDFS, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов SQL-on-Hadoop рассмотрим, что такое Cloudera Data Platform Operational Database, как это связано с Apache HBase и Phoenix. Также разберем, каким образом перенести данные из кластера HBase в Cloudera Operational Database, избежав их потери и других подводных камней. Что такое Cloudera Operational Database: назначение...

26Фев

Аналитика больших данных с Apache Spark: UDF на Pyspark для вызова внешних REST API

Автор Анна Вичуговав категории Spark, Блог

Apache Spark для разработчиков аналитиков данных и дата-инженеров примеры курсы обучение, курсы примеры обучение Spark SQL PySpark, обучение Spark REST API UDF курсы, примеры Spark парсинг JSON, примеры Spark для разработчиков курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как загружать большие объемы данных из REST API-сервисов с Apache Spark, написав на PySpark собственную UDF-функцию с преобразованием withColumn(), чтобы воспользоваться всеми преимуществами распределенных вычислений этого фреймворка. Локальное исполнение на драйвере и распараллеливание REST-API вызовов в Apache Spark Мы уже рассказывали, что конвертация Python-скрипта в распределенный код Apache...

25Фев

Главные улучшения Cloudera Flow Management 2.1.3 на базе Apache NiFi 1.15

Автор Анна Вичуговав категории NiFi, Блог

Cloudera Flow Management 2.1.13 Apache NiFi 1.15 примеры курсы обучение, пример Apache NiFi администратор курсы обучение, NiFi для инженеров данных, NiFi обновление для дата-инженеров и администраторов, курсы Apache NiFi, обучение разработчик Data Flow, NiFi примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

В феврале 2022 года вышел новый релиз Cloudera Flow Management 2.1.3 для совместного использования с Cloudera Manager и CDP Private Cloud Base 7.1.7. Этот выпуск основан на Apache NiFi 1.15, о новинках которого мы ранее рассказывали здесь, здесь и здесь. Сейчас рассмотрим основные преимущества этого решения. 5 главных улучшений в...