Как Apache Kafka используется в реальном производстве: пример Северстали

Big Data, Большие данные, Kafka, архитектура, Docker, Kubernetes, Hadoop, цифровизация, цифровая трансформация, IIoT, IoT, интернет вещей, промышленность

Рассматривать обучение Кафка интереснее на практических примерах. Сегодня мы расскажем, как Apache Kafka применяется в одной из крупнейших промышленных компаний России — ПАО «Северсталь». Эта статья написана на основе выступления Доната Фетисова, главного архитектора «Северсталь Диджитал». Доклад был представлен 7 декабря 2019 года на очередном ИТ-митапе компании Авито по Big Data системам и микросервисам, «Backend United #5: Шаурма». Цифровизация, АСУТП, IIoT, Big Data и другие ИТ-вызовы современного завода Начнем с того, что ПАО «Северсталь» — это настоящий промышленный гигант, одна из ведущих вертикально-интегрированных горнодобывающих и сталелитейных компаний в мире. Основные активы предприятия сосредоточены в России, а также   на Украине, в Латвии, Польше, Италии и Либерии. Организация производит высококачественный металлопрокат и стальные трубы для строительства, машиностроения, автомобильной и нефтегазовой отраслей. Далее …

Корпоративное обучение Big Data vs индивидуальные курсы: 4 ключевых отличия

обучение Big Data, курсы по большим данным, тренинги большие данные для руководителей

Сегодня рассмотрим, чем корпоративное обучение большим данным (Big Data) отличается от индивидуального. Читайте в нашей статье, почему образовательные курсы по Apache Kafka, Hadoop, Spark и другим технологиям Big Data сплотят ваших сотрудников лучше любого тимбилдинга и как повысить эффективность такого обучающего тренинга. Почему корпоративное обучение Big Data эффективнее индивидуальных курсов: взгляд изнутри Проанализировав многолетний опыт нашего учебного центра повышения квалификации и подготовки ИТ-специалистов по большим данным, мы выделили основные факторы, которые отличают корпоративные курсы от индивидуального обучения: отраслевая специфика, когда материал подается для всей группы слушателей в контексте его бизнес-применения в данной предметной области. Например, для сотрудников нефтегазового сектора преподаватели «Школы Больших Данных» подбирают примеры Big Data и IoT/IIoT-решений, используемых в реальных отечественных и зарубежных организациях, которые добывают, обрабатывают и Далее …

Как ускорить работу producer’ов Kafka: параметры конфигурации производителей

Big Data, Большие данные, Kafka, архитектура

Вчера мы рассказывали, от чего зависит скорость работы Apache Kafka и как можно повысить. Сегодня рассмотрим подробнее, как именно конфигурация отправителей (производителей, producers) сообщений влияет на общую производительность этой распределенной Big Data системы потоковой агрегации событий. Что такое конфигурация производителей Apache Kafka Напомним, общая производительность Кафка зависит от следующих факторов: параметры аппаратного оборудования улов кластера (hardware) – память, ЦП, жесткие диски; пропускная способности сети; количество производителей и потребителей; конфигурация производителей – совокупность настроек (параметров) producer’ов, которые определяют поведение отправителей сообщений. Таким образом, настройки отправителей сообщений играют далеко не последнюю роль в общей производительности Big Data системы. Вообще официальная документация по Kafka Confluent включает около 60 параметров конфигурации производителей. Из них далеко не все напрямую влияют на скорость работы producer’ов Кафка. Далее …

Почему ваша Kafka такая медленная и как ее ускорить: 7 главных факторов производительности этой Big Data системы

Big Data, Большие данные, Kafka, архитектура

Продолжая практическое обучение Kafka, сейчас мы рассмотрим, от чего зависит производительность этой распределенной Big Data системы потоковой агрегации событий. Частично эту тему мы уже рассматривали в статье про применение Кафка в высоконагруженных проектах. Читайте в сегодняшнем материале, какие параметры влияют на скорость работы Кафка и как можно ее повысить. Как работает Apache Kafka: потоковая агрегация сообщений в Big Data Прежде чем говорить про производительность Кафка, напомним, как работает эта Big Data система. Очень кратко работу Apache Kafka можно описать следующим образом [1]: приложение-издатель (производитель, producer) отправляет сообщение в топик (topic) Кафка. При этом данные могут быть сжаты с помощью кодеков, например, gzip или snappy. Kafka объединяет сообщения в группу (пакет) для хранения в одном разделе (partition) топика; Данные записываются на диск, Далее …

Что такое гарантия доставки сообщений или как избавиться от дублей и потерь в Apache Kafka и других Big Data брокерах

Big Data, Большие данные, Kafka, архитектура

Вчера мы говорили про концепцию QaaS, очереди сообщений в Apache Kafka и другие проблемы производительности высоконагруженных систем с использованием этой Big Data платформы. Сегодня рассмотрим сложности многопоточной обработки событий в разном порядке: когда возникают подобные ситуации и как их решить. Для этого еще раз сравним Кафку с ее вечным конкурентом, RabbitMQ, и проанализируем гарантии доставки сообщений: что это такое и почему exactly-once по-разному работает для издателей/производителей (producer) и подписчиков/потребителей (consumer). Сложная маршрутизация очередей или проблемы многопоточной обработки в Big Data Несмотря на надежность, масштабируемость, высокую пропускную способность и ряд других достоинств, Apache Kafka – это не серебряная пуля для всех Big Data систем потоковой обработки событий. В частности, на практике часто возникают задачи, для решения которых Кафка по умолчанию не Далее …

Повышаем производительность Apache Kafka в высоконагруженных Big Data системах: пример Авито

Big Data, Большие данные, Kafka, архитектура

При всех достоинствах Apache Kafka, для этого популярного Big Data средства управления сообщениями характерны определенные трудности в обеспечении производительности. Сегодня мы поговорим про некоторые проблемы использования этого распределенного брокера сообщений в высоконагруженных системах. В качестве реального примера рассмотрим особенности практического использования Кафка в отечественном сервисе объявлений Авито. Что такое высоконагруженная Big Data система Прежде всего, определим, что такое высоконагруженная система (Highload) обработки больших данных (Big Data). Итак, Highload – это приложение с высокой нагрузкой, которая спровоцирована [1]: большим количеством одновременно работающих пользователей; большим объемом обрабатываемых данных; многочисленными сложными вычислениями. Для высоконагруженных систем характерны быстрое время отклика, масштабируемость и модульность. Яркие примеры высоконагруженной Big Data системы – это сайты соцсетей, крупных интернет-магазинов и другие многопользовательские веб-сервисы с миллионной аудиторией. Таким образом, Далее …

Зачем Apache Kafka и другие Big Data системы используют Zookeeper и чем его заменить

Big Data, Большие данные, Kafka, Hadoop, HBase

Рассматривая практическое обучение Kafka, сегодня мы поговорим, зачем нужен Zookeeper и можно ли использовать Кафка без этой централизованной службы синхронизации распределенных сервисов. Читайте в нашей статье о роли Zoo в системах обработки больших данных (Big Data) и о том, может ли Apache Kafka эффективно работать без Zookeeper, а также как это реализовать. Что такое Apache Zookeeper и зачем он нужен Kafka, а также другим Big Data системам Apache Zookeeper – это централизованная служба для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления групповых служб. За счет своего API, Зукипер берет на себя координацию распределенных сервисов, позволяя разработчику Big Data сосредоточиться на логике своего приложения. С развитием основных технологий больших данных (Apache Hadoop, HBase, Kafka), Zoo стал стандартом Далее …

Кому и когда нужны курсы по Kafka и другим технологиям Big Data: 5 реальных кейсов

Big Data, Большие данные, Kafka, интернет вещей, Internet of Things, IoT, IIoT, DevOps, Spark, Hadoop, Machine Learning, машинное обучение, цифровизация, цифровая трансформация

Продолжая разговор о том, как выбрать курсы по Kafka и другим технологиям больших данных (Big Data), сегодня рассмотрим, кому и в каких случаях нужно такое повышение квалификации. В этой статье мы собрали для вас 5 прикладных кейсов по Кафка для ИТ-профессионалов разных специальностей, от системного администратора до Data Engineer’а. А о том, почему корпоративное обучение большим данным эффективнее индивидуальных курсов, мы рассказываем здесь. Что такое Apache Kafka и зачем она нужна в Big Data Напомним, что такое Кафка и какова роль этой технологии в общем ландшафте Big Data решений. Apache Kafka – это реплицированный журнал сообщений в виде распределённой, горизонтально масштабируемой Big Data системы. Она используется для централизованного сбора, передачи и непрерывной потоковой обработки большого количества сообщений из различных источников: Далее …

Как выбрать хорошие курсы по Kafka и другим технологиям Big Data: 4 простых совета

Big Data, Большие данные, Kafka

В этой статье мы рассмотрим наиболее значимые факторы по выбору образовательных курсов по Apache Kafka и другим технологиям больших данных (Big Data). А также расскажем, как эти условия реализуются в нашем учебном центре, чтобы сделать повышение квалификации ИТ-специалистов и руководителей максимально эффективным. Что важно при выборе курсов по Кафка Проанализировав потребности наших слушателей (программистов, инженеров и ученых по данным, а также менеджеров и руководителей), мы выявили 4 основных фактора выбора обучающих курсов по технологиям больших данных: цель – результаты обучения и сопутствующие выходы, чтобы удовлетворить ваш изначальный запрос с учетом будущих перспектив; время – насколько быстро вы хотите освоить новую технологию, чтобы сразу после обучения эффективно использовать ее на практике; преподаватели – кто будет делиться с вами своим опытом и Далее …

Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, машинное обучение, Machine Learning, Spark, Kafka, предиктивная аналитика, Hadoop

Продолжая разговор про примеры практического использования Apache Cassandra в реальных Big Data проектах, сегодня мы расскажем вам о рекомендательной системе стримингового сервиса Spotify на базе этой нереляционной СУБД в сочетании с другими технологиями больших данных: Kafka, Storm, Crunch и HDFS. Рекомендательная система Spotify: зачем она нужна и что должна делать Начнем с описания самого сервиса: Spotify – это интернет-ресурс потокового аудио (стриминговый), позволяющий легально и бесплатно прослушивать более 50 миллионов музыкальных композиций, аудиокниг и подкастов, в режиме онлайн, т.е. не загружая их на локальное устройство. Этот сервис доступен в США, Европе, Австралии и Новой Зеландии, а также в некоторых странах Азии и Африки. В общем случае доля сервиса составляет более 36 % мирового аудиостриминга, при этом большая часть (70%) прослушиваний Далее …