Большие данные для малого бизнеса: 3 примера, которые подойдут каждому

курсы по большим данным, аналитика больших данных обучение, большие данные для чайников, Big Data в малом и среднем бизнесе с примерами, большие данные и машинное обучение в бизнесе

Отвечая на вопрос, что такое большие данные для чайников, сегодня мы рассмотрим 3 практических примера использования технологий Big Data в малом и среднем бизнесе. Никакой Rocket Science, только понятные кейсы, которые актуальны для любой современной компании, даже если она состоит из пары человек: аналитика больших данных и машинное обучение для начинающих.   Анализ ассортимента и выявление проблемных поставщиков Простой статистический анализ данных по продажам поможет выявить покупательские предпочтения и определить проблемы с поставщиками. Например, в одном из московских магазинов было несколько обращений по поводу плохо вычищенных семечек в замороженных фаршированных перцах. Обзвонив покупателей, которые недавно приобретали этот товар, сотрудники магазина получили следующие отзывы [1]: 49% клиентов сказали, что перцы действительно были плохие — с семечками, вялые и даже грязные; 37 % Далее …

Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

курсы по большим данным и машинному обучению, обучение Big Data и Machine Learning, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, Spark, Python, PySpark, Elasticsearch

В продолжение разговора о применении технологий Big Data и Machine Learning в рекламе и маркетинге, сегодня рассмотрим архитектуру системы прогнозирования конверсии рекламных объявлений. Читайте далее, как организовать предиктивную аналитику больших данных на Apache Kafka и компонентах ELK-стека (Elasticsearch, Logstash, Kibana), почему так важно тщательно подготовить данные к машинному обучению, какие функции PySpark помогают сделать это и на что обратить внимание при настройке Spark-кластера. Строим систему потоковой аналитики Big Data на Apache Kafka и Kibana через Logstash и Elasticsearch Начнем с постановки задачи: требуется спрогнозировать конверсию рекламных объявлений, т.е. вычислить CTR-рейтинг (click through rate) или показатель кликабельности. Эта важная метрика эффективности интернет-маркетинга определяет отношение числа кликов на рекламное объявление к числу показов и измеряется в процентах. К примеру, если реклама была Далее …

Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon

курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени, Big Data, Kafka, Spark, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, SQL, Hive, Hadoop, Amazon Web Services, AWS Kinesis

Мы уже рассказывали о возможностях ретаргетинга и использовании Apache Spark Structured Streaming для реализации этого рекламного подхода на примере Outbrain. Такое применение технологий Big Data сегодня считается довольно распространенным. Чтобы понять, как это работает на практике, рассмотрим кейс маркетинговой ИТ-компании MIQ, которая запускает Spark-приложения на платформе Qubole и сервисах Amazon, создавая конвейеры потоковой передачи и аналитики больших данных с использованием готовых соединителей и операторов, а также компонентов экосистемы Apache Hadoop — Presto и Hive. Еще раз о том, что такое ретаргетинг и при чем здесь Big Data c Machine Learning Ретаргетинг в сфере e-commerce – это техника убеждения потенциальных клиентов вернуться на веб-сайт после того, как этот ресурс был закрыт без покупки или другого конвертирующего действия (оставить заявку, подписаться на Далее …

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

курсы по Apache Kafka, Kafka обучение, обучение большим данным, аналитика больших данных, курсы аналитик Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, предиктивная аналитика, ритейл, цифровая трансформация, цифровизация, SQL, DWH, облака

Интерактивная аналитика больших данных — одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры, уходя от традиционного DWH с пакетной обработкой к событийно-стриминговой облачной платформе на базе Apache Kafka и Snowflake. Зачем модному ритейлеру Apache Kafka: постановка задачи с точки зрения бизнеса Компания Boden – это британский ритейлер одежды, основанный в 1991 году. Продажи идут онлайн и по каталогам. Впервые сайт компании boden.com был запущен еще в 1999 году и постоянно развивался. Однако, сегодня, когда шопинг и многие другие активности переходят в интернет, ритейл должен реагировать на запросы пользователей в режиме реального времени. Например, быстро реагировать на возросший интерес и всплеск спроса, вызванный появлением Далее …

Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

курсы по Kafka, обучение Kafka, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Druid, Kafka, обработка данных, архитектура, SQL

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем самой популярной стриминговой компании отслеживать показатели клиентских устройств и как это реализуется с помощью Apache Druid, Kafka и других технологий Big Data. Big Data Pipeline на Apache Kafka и Druid Напомним, бизнес Netflix, по сути, представляет собой интернет-кинотеатр, где можно в режиме онлайн смотреть видеозаписи: фильмы, передачи и пр. Чтобы понимать, как обновления и другие нововведения воспринимаются пользователями, Netflix отслеживает метрики о клиентских устройствах, классифицируя последние по типу: Smart TV, iPad, Android-телефон и т.д. Анализируя логи с этих устройств в реальном времени в качестве источника событий, аналитики Big Data могут Далее …

Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

курсы дата инженеров, обучение инженеров Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, SQL

Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен Graceful shutdown в потоковой обработке больших данных. Сегодня в рамках этого примера разберем, как снизить нагрузку при потоковой передаче множества данных с помощью семплирования RDD в Spark Streaming, а также когда и почему стоит выбрать Union, а не Join-оператор в SQL-запросах Apache Druid. Постановка задачи или что не так с JOIN в Apache Druid Для оценки эффективности своих ретаргетинговых кампаний, биржа рекламных ссылок Outbrain построила собственную систему аналитики больших данных на основе Apache Kafka, Spark Streaming и Druid. Принцип ее работы можно описать следующим образом [1]: «cырые» данные о пользовательском Далее …

Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

курсы по Apache Spark Apache Spark обучение, курсы по Kafka, обучение Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, потоковая обработка больших данных кейсы, Graceful shutdown Apache Spark Streaming

Продолжая разбирать, как работает аналитика больших данных на практических примерах, сегодня мы рассмотрим, что такое Graceful shutdown в Apache Spark Streaming. Читайте далее, как устроен этот механизм «плавного» завершения Спарк-заданий и чем он полезен при потоковой обработке больших данных в рамках непрерывных конвейеров на базе Apache Kafka и других технологий Big Data. Зачем нужно «плавное» завершение Spark-заданий при потоковой обработке данных Как мы разбирали во вчерашнем примере, при построении конвейера потоковой обработки больших данных на основе Apache Kafka и Spark Streaming предполагается, что Spark-задания выполняются непрерывно. Приложение Spark Streaming постоянно считывает события из входного топика Kafka, обрабатывает их и записывает результаты в выходной топик. Но на практике в кластере Спарк может возникнуть сбой. А, поскольку, Apache Spark – это отказоустойчивая Далее …

Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain

курсы по Apache Spark Apache Spark обучение, курсы по Kafka, обучение Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, потоковая обработка больших данных кейсы

Современная аналитика больших данных ориентируется на обработку Big Data в реальном времени. Такие вычисления «на лету» позволяют в режиме онлайн узнавать о критически важных производственных показателях и оперативно понимать клиентские потребности. Это существенно ускоряет и автоматизирует цикл принятия управленческих решений в соответствии с требованиями сегодняшнего бизнеса. Обычно для реализации архитектуры потоковой обработки данных используются распределенные масштабируемые и надежные технологии Big Data, такие как Apache Kafka и Spark Streaming. Читайте далее, как на их основе нью-йоркская платформа веб-рекламы Outbrain разработала собственную систему онлайн-аналитики и при чем здесь Graceful shutdown. На чем стоит ретаргетинг: потоковая аналитика больших данных в онлайн-рекламе Чтобы показать важность аналитики событий в реальном времени для компании Outbrain, прежде всего поясним суть ее бизнеса. По сути, Outbrain является биржей Далее …

Чем похожи CRISP-DM и BABOK®Guide: бизнес-анализ в Data Science

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, BABOK, CRISP-DM, бизнес-анализ, подготовка данных, Data Science, Data Mining

Мы уже рассказывали, что цифровизация и другие масштабные проекты внедрения технологий Big Data должны обязательно сопровождаться процедурами бизнес-анализа, начиная от выявления требований на старте до оценки эффективности уже эксплуатируемого решения. Сегодня рассмотрим, как задачи бизнес-анализа из руководства BABOK®Guide коррелируют с этапами методологии исследования данных CRISP-DM, которая считается стандартом де-факто в области Data Science. Еще раз про CRISP-DM: что это и из чего состоит CRISP-DM (Cross-Industry Standard Process for Data Mining) — это наиболее распространенная на практике методология выполнения Data Science проектов, которую принято называть межотраслевым стандартным процессом исследования данных. Он описывает жизненный цикл Data Science проектов в следующих 6 фазах, каждая из которых включает ряд задач: понимание бизнеса (Business Understanding), где через оценку текущей ситуации определяются бизнес-цели и требования, а также Далее …

Cloudera Data Science Workbench vs Arenadata Analytic Workspace: сравнительный обзор

предиктивная аналитика, архитектура, обработка данных, Big Data, большие данные, Hadoop, Arenadata, цифровизация, цифровая трансформация, Spark, DataOps, Docker, Kubernetes, Zeppelin

Самообслуживаемая аналитика больших данных – один из главных трендов в современном мире Big Data, который дополнительно стимулирует цифровизация. В продолжение темы про self-service Data Science и BI-системы, сегодня мы рассмотрим, что такое Cloudera Data Science Workbench и чем это зарубежный продукт отличается от отечественного Arenadata Analytic Workspace на базе Apache Zeppelin. Что такое Cloudera Data Science Workbench и кто этим пользуется По аналогии с российским решением Arenadata Analytic Workspace на основе open-source продукта Apache Zeppelin, Cloudera Data Science Workbench поддерживает концепцию самообслуживаемого сервиса для непрерывного цикла аналитики Big Data в корпоративных масштабах. Он позволяет управлять собственными DataOps-конвейерами, ускоряя проекты машинного обучения от исследования до промышленной эксплуатации, включая поддержку R, Python и Scala для безопасного выполнения вычислений с данными в кластерах Далее …