Как Apache Kafka Streams API помогает DevOps-инженеру Big Data систем

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark, IoT, Internet Of Things, интернет вещей, DevOps

Продолжая разговор про Apache Kafka Streams, сегодня мы расскажем, как API этой мощной библиотеки упрощает жизнь DevOps-инженеру и разработчику Big Data систем. Читайте в нашей статье, как Kafka Streams API эффективно обрабатывать большие данные из топиков Кафка на лету без использования Apache Spark, а также быстро создавать и развертывать распределенные приложения с привычными DevOps-инструментами без дополнительных кластеров. Что такое Apache Kafka Streams API Apache Kafka Streams API – это интерфейс программирования, который позволяет распределенным приложениям в режиме реального времени обрабатывать данные, хранящиеся в Кафка, реализуя стандартные классы этой платформы потоковой обработки без развертывания отдельных кластеров. Благодаря этому инструменту можно организовать потоковую обработку данных прямо внутри кластера Кафка, без привлечения дополнительных технологий, таких как, например, Apache Spark или Storm. В частности, Далее …

Синергия Apache Kafka и Spark Streaming: потоковая обработка Big Data в реальном времени

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark, машинное обучение, Machine Learning

В этой статье мы рассмотрим архитектуру Big Data конвейера по непрерывной обработке потоковых данных в режиме реального времени на примере интеграции Apache Kafka и Spark Streaming. Что такое Spark Streaming и для чего он нужен Spark Streaming – это надстройка фреймворка с открытым исходным кодом Apache Spark для обработки потоковых данных. Спарк входит в экосистему проектов Hadoop и позволяет осуществлять распределённую обработку неструктурированной и слабоструктурированной информации. Изначально Спарк был написан на языке программирования Scala, затем добавилась часть компонентов на Java. Дополнительно к этим языкам, фреймворк также предоставляет API для Python и R [1]. Apache Spark – это многокомпонентная система из следующих элементов: Ядро (Spark Core), которое использует специализированные примитивы для рекуррентной обработки в оперативной памяти, что значительно ускоряет многократный доступ Далее …

И чем же она хороша: ТОП-10 достоинств Apache Kafka для Big Data систем

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, архитектура, обработка данных, интеграция

Продолжая разговор про основы Apache Kafka, сегодня мы рассмотрим, почему этот распределённый брокер сообщений стал таким популярным в архитектуре систем Big Data. Читайте в нашей статье, как Кафка обеспечивает высокую производительность процессов сбора и агрегации информационных потоков от множества источников, надежно гарантируя долговечную сохранность сообщений, и эффективно интегрируется с другими хранилищами больших данных. 10 главных преимуществ Apache Kafka в мире Big Data Распределенность – отсутствие единой точки отказа за счет распределения данных и программных приложений по узлам кластера. Горизонтальная масштабируемость – возможность добавления новых источников данных и узлов с различными характеристиками в единый вычислительный кластер. Отказоустойчивость – сохранность сообщений обеспечивается архитектурой master-slave (ведущий-ведомый), механизмом реплицирования и синхронизацией реплик. Потеря сообщений возможна только в случае сбоя ведущего узла и отсутствия участвующих в Далее …

Как связаны Apache Kafka и Machine Learning: архитектура Big Data и IoT-систем

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, архитектура, обработка данных, машинное обучение, Machine Learning, Spark

Рассмотрев основы Apache Kafka, сегодня мы расскажем о месте этого распределённого брокера сообщений в архитектуре Big Data систем. Читайте в нашей статье, какие компоненты Кафка обеспечивают ее использование в программных продуктах машинного обучения (Machine Learning, ML), интернете вещей (Internet Of Things, IoT), системах бизнес-аналитики (Business Intelligence, BI), а также других высоконагруженных средствах обработки и хранения больших данных. Типовая архитектура Big Data систем с Apache Kafka Успех современного бизнеса в data-driven мире напрямую зависит от скорости обработки информации и реакции на факты, полученные в результате этого процесса. Например, банку нужно обнаружить мошенничество еще до того, как злоумышленник похитит деньги с кредитной карты клиента, а интернет-магазин стремится предложить посетителю товар, который его заинтересует, только на основании поисковых запросов. Промышленные IoT-платформы с помощью Далее …

Роль Apache Kafka в Big Data и DevOps: краткий ликбез и практические кейсы

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, DevOps, архитектура, администрирование, обработка данных

Мы уже упоминали Apache Kafka в статье про промышленный интернет вещей (Industrial Internet Of Things, IIoT). Сегодня поговорим о том, где и для чего еще в Big Data проектах используется эта распределённая, горизонтально масштабируемая система обработки сообщений. Как работает Apache Kafka Apache Kafka позволяет в режиме онлайн обеспечить сбор и обработку следующих данных: поведение пользователя на сайте; потоки информации с множества конечных устройств IoT и IIoT («сырые данные»); агрегация журналов работы приложений; агрегация статистики из распределенных приложений для корпоративных витрин данных (ETL-хранилищ); журналирование событий. Яркий пример использования Apache Kafka – непрерывная передача информации со smart-периферии (конечных устройств) в IoT-платформу, когда данные не только передаются, но и обрабатываются множеством клиентов, которые называются подписчиками (consumers). В роли подписчиков выступают приложения и программные Далее …

Я в Big Data пойду – пусть меня научат: большие данные — с чего начать

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, интернет вещей, IoT, Internet of Things, машинное обучение, Machine Learning

Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться – ликбез для чайников и начинающих. Профессиональные направления в мире Big Data Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления: аналитика – формулирование гипотез, визуализация информации, поиск закономерностей в наборе данных (датасете), подготовка информации к Далее …

Алиса посылает Бобу сообщение: криптография в IoT и Big Data системах

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, Security, безопасность, защита информации, персональные данные, утечки данных

Почти каждая статья по системам шифрования и криптографическим методам иллюстрируется примере отношений Алисы с Бобом и прочими метафизическими личностями [1]. В продолжение темы информационной безопасности в интернете вещей и Big Data, сегодня мы поговорим о том, как именно криптография помогает защитить каналы передачи данных и IoT-устройства от перехвата управления и утечек информации. Криптографические методы интернета вещей Прежде всего, напомним, что интернет вещей состоит из нескольких уровней: smart-приборы – конечные IoT-устройства (датчики, сенсоры, контроллеры и пр.), которые собирают малые данные с технологического оборудования или бытовой техники и передают их в сеть; каналы передачи данных – проводные и беспроводные сетевые протоколы (Serial, RS-485, MODBUS, CAN bus, OPC UA, BLE, WiFi, Bluetooth, 6LoRaWAN, Sigfox и пр.) для отправки информации с конечных IoT-устройств на Далее …

Сетевая безопасность IoT-систем: IPv6 и криптография микроконтроллеров

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, Security, безопасность, защита информации, персональные данные, утечки данных

Продолжая разбираться с информационной безопасностью Internet of Things и Big Data систем, сегодня мы поговорим о каналах передачи данных – защищенных протоколах и криптографических средствах в smart-устройствах. От IoT-устройства в облако Big Data: особенности многоуровневой передачи данных по сетям Интернет вещей – это комплексная система трехзвенной архитектуры: информация с «умного» прибора или датчиков/сенсоров и других конечных устройств, установленных на технологическом оборудовании, не сразу попадает в облако IoT-платформы для интеллектуального анализа данных средствами Big Data и Machine Learning. Каждый компонент этой сложной системы является потенциально уязвимым. В то время, как хакеры изобретают все новые способы взлома smart-устройств и облачных кластеров, специалисты по кибербезопасности предпринимают всевозможные меры по улучшению защиты Internet of Things: от сертификации существующих до разработки новых технологий. В частности, Далее …

Как сделать интернет вещей безопасным: 3 вида cybersecurity в Big Data

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, Security, безопасность, защита информации, персональные данные, утечки данных

Мы уже рассказывали про уязвимости систем Internet of Things и причинах их возникновения. Сегодня поговорим о том, как снизить риски нарушения информационной безопасности интернета вещей, и кто отвечает за мероприятия по защите smart-устройств от взломов и IoT-платформ от утечек Big Data. Способы обеспечения информационной безопасности интернета вещей В соответствии с многоуровневой архитектурой IoT-систем, можно выделить следующие 3 участка, на которых необходимо обеспечить информационную безопасность: smart-устройства – «умные» датчики, сенсоры и другими приборы, которые собирают информацию с оборудования и отправляют ее в облако, передавая обратно управляющие сигналы по изменению состояния вещей; сетевые шлюзы и каналы передачи данных (проводные и беспроводные протоколы); программные IoT-платформы – облачные Big Data сервисы хранения и обработки информации. Для всех этих компонентов в частности и в целом Далее …

DDos-атака от видеоняни: информационная безопасность IoT и Big Data

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, Security, безопасность, защита информации, персональные данные, утечки данных

Продолжая тему информационной безопасности в мире Big Data, сегодня мы поговорим об проблемах защиты данных в системах Internet of Things. Читайте в нашем материале, как вредоносные ботнеты взламывают бытовые smart-устройства, с чем сталкивается промышленный интернет вещей при обеспечении безопасности, а также какие компоненты IoT/Big Data систем наиболее уязвимы и почему. Информационная безопасность IoT и Big Data: масштабы проблемы Важнейшими рисками для IoT-технологий являются перехват управления и утечки персональных данных. Например, согласно исследованию компании Avast, 23,7% IoT-устройств в России уязвимы для кибератак, что создает угрозу для безопасности людей и их личных данных. Особенно критична ситуация для веб-камер и видеонянь, а также сетевых принтеров и роутеров [1]. С учетом цифровизации производства и домохозяйств, включая стремительное распространение IoT-систем, проблема информационной безопасности интернета вещей становится все Далее …