Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Spark, Airflow, обработка данных, архитектура, Livy, большие данные, Big Data

Сегодня поговорим про построение конвейеров обработки данных (data pipeline) на примере совместного использования Apache Spark с Airflow и рассмотрим типовые проблемы этой комбинации. Читайте в нашей статье, как автоматизировать задачи пакетной и потоковой обработки больших данных (Big Data) с помощью гибкого REST-API Apache Livy, включая работу с Python-кодом, отказоустойчивость и безопасность. Что не так с комбо Apache Spark и Airflow: смотрим на примере data pipeline Представим достаточно простой data pipeline, когда необходимо обеспечить запуск Spark-задач по расписанию в рамках следующего ETL-процесса [1]: непрерывный поток приходит с видеокамер, датчиков и других IoT-устройств, данные пишутся в топики Apache Kafka; одно приложение Apache Spark обеспечивает извлечение данных (Extract) в эффективном для хранения и чтения Big Data столбцовом формате, например, Parquet, чтобы далее отправить Далее …

Цифровизация рабочего пространства: ТОП-3 тенденции 2020

цифровизация, цифровая трансформация, цифровая экономика, Agile, администрирование, интернет вещей, Internet of Things, IoT

Вчера мы говорили про наиболее перспективные технологии 2020 с точки зрения исследовательского агентства Gartner и их влияние на цифровую трансформацию. Сегодня продолжим разбирать современные тенденции изменения рабочего пространства с учетом эпидемиологической напряженности и тренда на дистанционное взаимодействие. Читайте далее, что такое Desktop as a Service, как выглядит интеллектуальное рабочее пространство, чем отличается BYOD от BYOT и каким образом все это полезно для корпоративной цифровизации. Цифровизация офиса: 6 трендов 2020 от Gartner Помимо всего прочего, 2020 год также можно назвать годом удаленной работы и трансформации рабочего пространства из-за пандемии COVID-19, карантинного режима и мер по предотвращению инфекции. В связи с этим компания Gartner провела перечень самых популярных технологий по организации офисных мест, причем не только удаленных [1]: облачная цифровизация рабочей ячейки, Далее …

Успехи Industry 4.0 на российских заводах: 5 примеров СИБУРа

Big Data, Большие данные, обработка данных, архитектура, цифровизация, цифровая трансформация, интернет вещей, Internet Of things, IIoT, IoT, Data Lake, Machine Learning, машинное обучение, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В этой статье рассмотрим, как технологии Industry 4.0 помогают российскому нефтехимическому холдингу СИБУР повысить операционную эффективность производства и обеспечить безопасность труда. Сегодня мы собрали для вас 5 примеров практического использования различных методов и инструментов Big Data, Machine Learning, Industrial Internet of Things (IIoT), а также XR (AR+VR). Зачем нефтехимикам технологии Industry 4.0: 5 бизнес-направлений Напомним, СИБУР – это крупнейшая в России интегрированная группа газоперерабатывающих и нефтехимических предприятий, которая производит и продает на отечественном и международном рынках нефтехимическую продукцию: полипропилен, полиэтилен, пластики, синтетические каучуки, пенополистирол и пр. [1]. В составе компании много заводов, распределенных по всей территории страны, с разной степенью продвинутости в плане технологий Industry 4.0 (I4.0). Однако наиболее примечательным в этом отношении можно назвать следующие кейсы: предупреждение поломок и Далее …

От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, цифровизация, цифровая трансформация, IIoT, Internet of Things, IoT, Machine Learning, интернет вещей, Машинное Обучение, нефтегазовая отрасль, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и предупреждает поломки оборудования, а Ford повышает качество автомобилей и лояльность своих клиентов за счет озера данных на Apache Hadoop и решений Informatica. Озеро данных на Talend Data Fabric в L’Oréal Data Lake – это не обязательно локальный кластер Apache Hadoop. Например, в октябре 2019 года французский производитель косметики и парфюмерии, компания L’Oréal развернула озеро данных на базе Talend Data Fabric в облачной инфраструктуре Microsoft Azure. Цель этого проекта состояла в сокращении сроков исследования Далее …

Как связать Greenplum и Kafka: 2 способа интеграции и коннектор Arenadata DB

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, интеграция Гринплам и Кафка

Мы уже рассказывали про интеграцию Tarantool с Apache Kafka на примере Arenadata Grid. Сегодня рассмотрим, как интегрировать Кафка с MPP-СУБД Greenplum и каковы ограничения каждого из существующих способов. Читайте в сегодняшнем материале, что такое GPSS, PXF и при чем тут Docker-контейнер с коннектором Кафка для Arenadata DB. IoT и не только или зачем интегрировать Greenplum с Apache Kafka Прежде всего поясним, почему вообще возникает задача интеграции MPP-СУБД Greenplum с брокером сообщений Apache Kafka. Представьте, что есть множество входящих потоков данных, например, от устройств интернета вещей (Internet of Things, IoT), которые необходимо проанализировать в реальном времени. Или нужна оперативная аналитика биржевых показателей на платформе онлайн-трейдинга, где миллионы клиентов со всего мира торгуют валютой и ценными бумагами в режиме онлайн. Технология массивно-параллельной Далее …

Зачем вам Tarantool: разгоняем большие данные с помощью In-Memory database

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, интернет вещей, Internet of Things, IoT, IIoT, Arenadata, резидентные СУБД, In-Memory Database

В этой статье мы рассмотрим резидентные (In-Memory) базы данных на примере Tarantool и Arenadata Grid: что это, как они работают и где используются. Еще поговорим, каким образом эти Big Data системы могут ускорить работу распределенных приложений без замены существующих СУБД, а также при чем здесь промышленный интернет вещей и экосистема Apache Hadoop для хранения больших данных. Who is who на рынке In-Memory DataBase: краткий обзор самых популярных решений В 2019 году аналитическое агентство Gartner включило резидентные базы данных, в которых информация размещается в памяти, в перечень наиболее перспективных технологий в области Data Management. При этом на графике технологической зрелости (Hype Cycle) In-Memory database (IMDB) расположены на восходящем участке по пути к плато продуктивности [1]. Это не удивительно с учетом длительной Далее …

Видеоаналитика с Machine Learning в ритейле: персональный маркетинг vs 152-ФЗ

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, интернет вещей, Internet of Things, IoT, IIoT, машинное обучение, Machine Learning, видеонаблюдение, FMCG

В продолжение темы про использование технологий Big Data и Machine Learning в FMCG-бизнесе, сегодня мы поговорим, как распознавание лиц помогает сформировать персональные маркетинговые предложения и насколько это законно. Разбираемся с видеоаналитикой и 152-ФЗ «О персональных данных» на примерах отечественных и зарубежных ритейлеров. От воров до VIP-клиентов: 5 примеров распознавания лиц в FMCG Вчера мы упоминали, что современные видеоаналитики с мощными алгоритмами Machine Learning – это отличный инструмент персонализированного маркетинга, который позволяет сформировать рекламное предложение специально для конкретного человека, с учетом его интересов, потребностей и финансовых возможностей. Примечательно, что распознавание лиц уже достаточно широко используется в ритейле и сфере услуг. Например, в международном финансовом центре Сеула камеры на информационных стендах в реальном времени определяют возраст и пол человека, формируя рекламное предложение соответственно выявленным Далее …

Как видеоаналитика Big Data с Machine Learning приносит деньги: 7 примеров FMCG

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, интернет вещей, Internet of Things, IoT, IIoT, машинное обучение, Machine Learning, видеоаналитика, видеонаблюдение, FMCG

Современное видеонаблюдение в ритейле – это не только обнаружение магазинных воришек, а полноценная аналитика Big Data с мощными алгоритмами Machine Learning для оперативного и стратегического управления. В этой статье мы приготовили для вас 7 сценариев практического использования технологий видеоаналитики в FMCG-секторе с реальными кейсами их внедрения в России на примере торговых сетей «Магнит», «Верный» и X5 Retail Group. Что такое видеоаналитика или зачем вам камера с Big Data и Machine Learning Отечественный рынок видеоаналитики непрерывно растет: ожидается, что к 2025 году его объем составит 51,75 миллиарда рублей, что в 2,75 раз больше аналогичного показателя 2019 года. При этом современные системы видеонаблюдения – это не просто камеры, а полноценные программно-аппаратные комплексы с набором интеллектуальных задач, таких как [1]: детектирование событий; подсчет Далее …

Коботы в ритейле: 3 причины взглянуть на робототехнику по-новому

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, интернет вещей, Internet of Things, IoT, IIoT, машинное обучение, Machine Learning, cobot, кобот

Цифровизация ритейла – это не только внедрение Apache Hadoop, Spark, Kafka и Machine Learning для аналитики больших данных, прогнозирования спроса и оптимизации складской логистики. Сегодня мы расскажем, что такое коботы и как эти технологии помогают бизнесу. В этой статье мы собрали для вас 7 примеров использования коллаборативных роботов в FMCG. Кто такие коботы и при чем тут цифровизация По итогам прошлогодней промышленной выставки Hannover Messe/Fair (215 000 посетителей и 6500 экспонатов), которая состоялась 1-5 апреля 2019 года в германском Ганновере, коботы вошли в ТОП-5 самых перспективных технологий 4-ой промышленной революции (Industry 4.0, I4.0). Напомним, промышленный интернет вещей (Industrial Internet of Things, IIoT) – одно из наиболее востребованных приложений концепции I4.0. При том, что IIoT, в первую очередь, ориентирован на промышленность, Далее …

Big Data, Machine Learning и Internet of Things в складской логистике: 7 FMCG-кейсов

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, интернет вещей, Internet of Things, IoT, IIoT, машинное обучение, Machine Learning, дрон, квадрокоптер, RFID, Kafka, Spark, Hadoop

Вчера мы затрагивали тему управления поставками в ритейле с помощью технологий Big Data и Machine Learning. Теперь разберем подробнее, как большие данные, машинное обучение и интернет вещей меняют складскую логистику и насколько это выгодно бизнесу. Сегодня мы собрали для вас 7 практических примеров: кейсы от отечественных и зарубежных транспортных компаний, а также крупных FMCG-компаний. 5 направлений использования Big Data, Machine Learning и Internet of Things в логистике Сначала перечислим наиболее перспективные приложения технологий Big Data, Machine Learning и Internet of Things в логистике: складская роботизация – от «умных» погрузчиков до дронов. Например, в Amazon маленькие роботы KIVA самостоятельно перемещают предметы внутри склада, сокращая расходы на 20%. В этой же компании летающие дроны успешно доставляют заказы удаленностью до 30 минут [1]. Далее …