В поддержку курса Hadoop для инженеров данных сегодня разберем, в чем проблема безопасной отправки заданий и файлов в облачное хранилище Amazon S3 и как ее решить. Читайте далее, почему AWS…
Метка: облака
Как Spark-приложению выполнять миллионы операций в секунду с данными в AWS S3
Автор Анна ВичуговаКатегория Spark, Use Cases, Статьи
Чтобы сделать курсы Hadoop и Spark для инженеров данных еще более интересными, сегодня мы рассмотрим кейс фудтех-компании iFood – лидера рынка доставки еды в странах Латинской Америки. Читайте далее, в…
Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы
Автор Анна ВичуговаКатегория Spark, Use Cases, Статьи
Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020,…
Оптимизация Apache Spark на Kubernetes: 4 способа ускорить контейнеризованные приложения
Автор Анна ВичуговаКатегория Spark, Статьи
Недавно мы рассказывали об особенностях запуска приложений Apache Spark в кластере Kubernetes с учетом новшеств релиза 3.1.1, где с этого варианта развертывания снят экспериментальный режим. В дополнение к ранее рассмотренным…
7 функций общей доступности Kubernetes в Apache Spark 3.1.1: мартовский релиз 2021
Автор Анна ВичуговаКатегория Spark, Статьи
Вчера мы упоминали, что с марта 2021 года в версии Apache Spark 3.1.1 с развертывания на Kubernetes снят экспериментальный режим, внесено множество улучшений для стабильной работы контейниризованных приложений и добавлены…
3 достоинства и пара недостатков Apache Spark на Kubernetes
Автор Анна ВичуговаКатегория Spark, Статьи
С учетом тренда на контейнеризацию при разработке и развертывании любых технологий, в т.ч. Big Data, сегодня рассмотрим плюсы и минусы совместного использования Apache Spark с Kubernetes. Читайте далее, как отправить…
От пакетного до потокового озера данных с Apache Kafka: кейс компании Trainline
Автор Анна ВичуговаКатегория Kafka, Статьи
Постоянно добавляя в наши курсы Apache Kafka для разработчиков интересные и практические примеры, сегодня мы разберем кейс тревел-площадки Trainline, которая агрегирует данные от 270 железнодорожных и автобусных компаний в 45…
Февральская новинка-2021: Apache Spark премиум-класса в Delta Lake Databricks на Google Cloud
Автор Анна ВичуговаКатегория Spark, Статьи
Продолжая вчерашний разговор про Delta Lake на базе Apache Spark от Databricks, сегодня мы расскажем одну из последних новостей о запуске этого решения на Google Cloud с середины февраля 2021…
Как вести мониторинг финансовых транзакций в реальном времени с Apache Kafka и Spark в Delta Lake: пример аналитики больших данных
Автор Анна ВичуговаКатегория Kafka, Spark, Use Cases, Статьи
Сегодня рассмотрим пример построения системы аналитики больших данных для мониторинга финансовых транзакций в реальном времени на базе облачного Delta Lake и конвейера распределенных приложений Apache Kafka, Spark Structured Streaming и…
Apache Spark для инженера данных: 3 полезных инструмента построения ETL-конвейеров
Автор Анна ВичуговаКатегория Spark, Use Cases, Статьи
Дополняя наши курсы дата-инженеров полезными примерами, сегодня рассмотрим, как упростить разработку и мониторинг ETL-конвейеров с помощью дополнительных технологий Big Data, совместимых с Apache Spark. Читайте далее, когда и зачем инженеру…