Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

25Апр

Сравнение датафреймов в Apache Spark на примере PySpark-кода

Apache Spark для разработчика примеры курсы обучение, PySpark тестирование assert примеры, PySpark Spark дата-инженерия примеры, Школа Больших Данных Учебный центр Коммерсант

Что такое assert, зачем это нужно в тестировании и отладке, как эта конструкция применяется для сравнения датафреймов в PySpark: примеры работы функций assertDataFrameEqual() и assertSchemaEqual() в Apache Spark. Что такое assert: конструкция тестирования При разработке PySpark-приложения дата-инженер чаще всего оперирует такими структурами данных, как датафрейм. Датафрейм (DataFrame) – это распределенная...

24Апр

Публикация и потребление AVRO-сообщений с реестром схем Apache Kafka: пример на Python

Автор Анна Вичуговав категории Kafka

Kafka Schema Registry, реестр схем Kafka Confluent пример, обучение Kafka, курсы по Kafka, Kafka Для инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Версионирование схемы сообщений в формате AVRO с использованием реестра схем Apache Kafka и библиотеки confluent_kafka: практический пример на Python в Google Colab. Публикация сообщений в Kafka с использованием реестра схем Недавно я показывала пример использования реестра схем (Schema Registry) Apache Kafka при публикации сообщений. Сегодня рассмотрим версионирование схемы данных в...

22Апр

Обновленный JDBC-драйвер Neo4j: возможности и ограничения

Автор Анна Вичуговав категории Neo4j, NoSql

подключение к Neo4j , Neo4j JDBC-драйвер, Neo4j графовая , аналитика больших данных примеры курсы обучение, Neo4j обучение курсы, анализ графов обучение, курсы аналитиков данных, Школа Больших Данных Учебный Центр Коммерсант

Что не так с общим Java-драйвером Neo4j, зачем нужен JDBC-драйвер, какие функции он поддерживает, а что не позволяет разработчику делать с этой графовой базой данных. Что не так с общим Java-драйвером Neo4j и зачем нужен JDBC-драйвер 25 марта 2024 года вышла 6-я версия драйвера JDBC для графовой СУБД Neo4j, поддерживаемого...

17Апр

RocksDB как хранилище состояний для Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark

обучение Spark, Spark Structured Streaming RocksDB state backend, потоковая обработка данных Spark Structured Streaming, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Где stateful-операторы хранят состояния, почему RocksDB лучше HDFSBackedStateStore и как Databricks адаптировал key-value хранилище к особенностям Spark Structured Streaming, чтобы сделать потоковую обработку больших данных еще быстрее. Где stateful-операторы Spark Structured Streaming хранят состояния? Хотя Apache Spark Structured Streaming реализует потоковую парадигму обработки информации, он по-прежнему использует микропакеты, т.е. ограниченные...

16Апр

Apache AirFlow 2.9: обзор свежего релиза

Автор Анна Вичуговав категории AirFlow

Apache AirFlow релиз 2.9, AirFlow для дата-инженера, обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

8 апреля 2024 года вышел очередной релиз Apache AirFlow. Знакомимся с ключевыми новинками выпуска 2.9: от функций работы с наборами данных до настроек внешнего объектного хранилища в качестве бэкенда XCom-объектов и особенностей поддержки Python 3.12. Наборы данных и гибкое планирование DAG Airflow Выпуск 2.9 содержит более 35 интересных новых функций,...

15Апр

Интеграция ClickHouse с Apache Kafka и Yandex.Datalens: интерактивная аналитика

Автор Анна Вичуговав категории ClickHouse, Kafka

Kafka курсы примеры обучение, ClickHouse обучение примеры курсы, аналитика данных с ClickHouse и Kafka, использование ClickHouse, интеграция ClickHouse,ЯНдекс Даталенс BI Kafka ClickHouse пример, Школа Больших Данных Учебный Центр Коммерсант

Как связать ClickHouse с Apache Kafka: примеры проектирования и реализации онлайн-аналитики с использованием облачного сервиса колоночной СУБД, брокера сообщений и BI-системы Яндекса. Постановка задачи и проектирование потокового конвейера Для взаимодействия с внешними хранилищами ClickHouse использует специальные механизмы – интеграционные движки таблиц. Вчера я показывала пример интеграции ClickHouse со встроенной key-value...

11Апр

Интеграция ClickHouse с RockDB: практический пример

Автор Анна Вичуговав категории ClickHouse, NoSql

ClickHouse обучение примеры курсы, аналитика данных с ClickHouse, использование ClickHouse, интеграция ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем, как из ClickHouse обратиться к встроенной key-value БД RockDB, используя табличный движок EmbeddedRocksDB, и познакомимся с возможностями новой песочницы колоночной базы данных. Постановка задачи и DDL-скрипты Колоночная СУБД ClickHouse поддерживает несколько движков таблиц, включая интеграционные механизмы для взаимодействия со сторонними системами, одной из которых является key-value база данных...

10Апр

3 среды выполнения запросов Cypher в графовой базе данных Neo4j: что выбрать?

Автор Анна Вичуговав категории Neo4j, NoSql

среда выполнения Cypher-запросов в Neo4j, аналитика больших данных примеры курсы обучение, Neo4j обучение курсы, анализ графов обучение, курсы аналитиков данных, Школа Больших Данных Учебный Центр Коммерсант

Тонкости параллельной среды выполнения Cypher-запросов в NoSQL-СУБД Neo4j и критерии выбора runtime для аналитических и транзакционных сценариев работы с графами. Слотовая и конвейерная среды выполнения Вообще в графовой NoSQL-СУБД Neo4j есть три типа среды выполнения Cypher-запросов: слотовая, конвейерная и параллельная. По умолчанию в версии в Community Edition используется слотовая, а...

09Апр

Парадигма программирования потоков данных и ее отражение в Apache NiFi

Автор Анна Вичуговав категории NiFi

обучение Apache NiFi, Apache NiFi для инженера данных, эксплуатация Apache NiFi, Controller Service Apache NiFi, курсы дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое программирование потоков данных и как ключевые идеи FBP-парадигмы обеспечивают высокую скорость и мощь Apache NiFi в потоковой обработке. Что такое Flow-Based Programming Каждый дата-инженер, работающий с Apache NiFi, знает, что этот фреймворк поддерживает потоковую обработку информации, понимая под потоком неограниченно поступающие данные. Однако, фундаментальные концепции NiFi основаны на...

08Апр

Новинки Apache Kafka 3.7: обзор свежего релиза

Автор Анна Вичуговав категории Kafka

Apache Kafka 3.7 обновление, Apache Kafka примеры курсы обучение, администрирование кластера Kafka, Kafka для инженеров данных администраторов и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В конце февраля вышел очередной релиз Apache Kafka за номером 3.7. Поддержка JBOD в KRaft-кластерах, новый протокол перебалансировки потребителей, мониторинг метрик клиента на брокере, новинки Streams и Connect, и другие изменения самой популярной платформы потоковой передачи событий для дата-инженера и администратора. Изменения в брокерах, продюсера, контроллерах и Admin Client 27...