Что не так с традиционными методами и инструментами разработки ПО для систем машинного обучения и как MLOps решает эти инженерные проблемы ML. Почему не стоит размещать файлы моделей Machine Learnig…
Метка: PySpark
Оконные функции PySpark в Google Colab: пара примеров
Автор Анна ВичуговаКатегория Spark, СтатьиСпециально для обучения начинающих аналитиков данных и дата-инженеров сегодня рассмотрим примеры выполнения простых SQL-запросов и оконных функций в Apache Spark на Google Colab. Как быстро проанализировать датафрейм из CSV-файлов с…
3 метода управления разделами в Apache Spark
Автор Анна ВичуговаКатегория Spark, СтатьиМы уже рассказывали про функции перераспределения данных по разделам coalesce() и repartition(). Сегодня сравним их работу с еще одним методом управления разделами в Apache Spark и разберем, как все они могут помочь…
Тонкости SparkSession в Apache Spark Structured Streaming
Автор Анна ВичуговаКатегория Spark, СтатьиМожет ли быть несколько сеансов в одном Spark-приложении с разной конфигурацией, зачем нужен метод foreachBatch() в структурированной потоковой передаче и чем он отличается от foreach(), почему возникает ошибка Table or…
Широковещательное соединение в Apache Spark SQL: ликбез и примеры
Автор Анна ВичуговаКатегория Spark, СтатьиВ этой статье для дата-инженеров и аналитиков данных, рассмотрим, что такое широковещательные соединение в Apache Spark SQL, чем оно полезно и как работает на практических примерах. BROADCAST JOIN в SELECT-запросах…
Ускорение PySpark-приложений с PyArrow: лайфхаки Apache Spark для разработчиков
Автор Анна ВичуговаКатегория Spark, СтатьиВ рамках обучения разработчиков Spark-приложений и дата-инженеров, сегодня рассмотрим, как повысить эффективность выполнения Python-кода с помощью кросс-языковой платформы Apache Arrow. Что такое PyArrow и как это улучшает производительность PySpark-программ. Почему…
MLOps на коленке: простое развертывание ML-модели с Apache Spark
Автор Анна ВичуговаКатегория Machine Learning, Spark, СтатьиПостоянно добавляя в наши курсы по Apache Spark и машинному обучению практические примеры для эффективного повышения квалификации Data Scientist’ов и инженеров данных, сегодня рассмотрим задачу пакетного прогнозирования и планирование ее…
MLOps и переносимость ML-моделей с помощью ONNX и Apache Spark
Автор Анна ВичуговаКатегория Machine Learning, Spark, СтатьиОбучая специалистов по Data Science, аналитиков и инженеров данных лучшим практикам MLOps, сегодня поговорим про переносимость моделей машинного обучения между разными этапами жизненного цикла ML-систем, от разработки до развертывания в…
Аналитика больших данных в реальном времени с Apache Kafka, Spark, ClickHouse и S3
Автор Анна ВичуговаКатегория Kafka, Spark, СтатьиПрактический пример аналитики больших данных в реальном времени с Apache Spark, Kafka, ClickHouse и AWS S3: возможности, архитектура, также специально для дата-инженеров и разработчиков распределенных приложений рассмотрим, сколько времени нужно…
Аналитика больших данных с Apache Spark: UDF на Pyspark для вызова внешних REST API
Автор Анна ВичуговаКатегория Spark, СтатьиСегодня рассмотрим, как загружать большие объемы данных из REST API-сервисов с Apache Spark, написав на PySpark собственную UDF-функцию с преобразованием withColumn(), чтобы воспользоваться всеми преимуществами распределенных вычислений этого фреймворка. Локальное…