Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Spark, Airflow, обработка данных, архитектура, Livy, большие данные, Big Data

Сегодня поговорим про построение конвейеров обработки данных (data pipeline) на примере совместного использования Apache Spark с Airflow и рассмотрим типовые проблемы этой комбинации. Читайте в нашей статье, как автоматизировать задачи пакетной и потоковой обработки больших данных (Big Data) с помощью гибкого REST-API Apache Livy, включая работу с Python-кодом, отказоустойчивость и безопасность. Что не так с комбо Apache Spark и Airflow: смотрим на примере data pipeline Представим достаточно простой data pipeline, когда необходимо обеспечить запуск Spark-задач по расписанию в рамках следующего ETL-процесса [1]: непрерывный поток приходит с видеокамер, датчиков и других IoT-устройств, данные пишутся в топики Apache Kafka; одно приложение Apache Spark обеспечивает извлечение данных (Extract) в эффективном для хранения и чтения Big Data столбцовом формате, например, Parquet, чтобы далее отправить Далее …

Цифровизация рабочего пространства: ТОП-3 тенденции 2020

цифровизация, цифровая трансформация, цифровая экономика, Agile, администрирование, интернет вещей, Internet of Things, IoT

Вчера мы говорили про наиболее перспективные технологии 2020 с точки зрения исследовательского агентства Gartner и их влияние на цифровую трансформацию. Сегодня продолжим разбирать современные тенденции изменения рабочего пространства с учетом эпидемиологической напряженности и тренда на дистанционное взаимодействие. Читайте далее, что такое Desktop as a Service, как выглядит интеллектуальное рабочее пространство, чем отличается BYOD от BYOT и каким образом все это полезно для корпоративной цифровизации. Цифровизация офиса: 6 трендов 2020 от Gartner Помимо всего прочего, 2020 год также можно назвать годом удаленной работы и трансформации рабочего пространства из-за пандемии COVID-19, карантинного режима и мер по предотвращению инфекции. В связи с этим компания Gartner провела перечень самых популярных технологий по организации офисных мест, причем не только удаленных [1]: облачная цифровизация рабочей ячейки, Далее …

Как связать Greenplum и Kafka: 2 способа интеграции и коннектор Arenadata DB

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, интеграция Гринплам и Кафка

Мы уже рассказывали про интеграцию Tarantool с Apache Kafka на примере Arenadata Grid. Сегодня рассмотрим, как интегрировать Кафка с MPP-СУБД Greenplum и каковы ограничения каждого из существующих способов. Читайте в сегодняшнем материале, что такое GPSS, PXF и при чем тут Docker-контейнер с коннектором Кафка для Arenadata DB. IoT и не только или зачем интегрировать Greenplum с Apache Kafka Прежде всего поясним, почему вообще возникает задача интеграции MPP-СУБД Greenplum с брокером сообщений Apache Kafka. Представьте, что есть множество входящих потоков данных, например, от устройств интернета вещей (Internet of Things, IoT), которые необходимо проанализировать в реальном времени. Или нужна оперативная аналитика биржевых показателей на платформе онлайн-трейдинга, где миллионы клиентов со всего мира торгуют валютой и ценными бумагами в режиме онлайн. Технология массивно-параллельной Далее …

Зачем вам Tarantool: разгоняем большие данные с помощью In-Memory database

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, интернет вещей, Internet of Things, IoT, IIoT, Arenadata, резидентные СУБД, In-Memory Database

В этой статье мы рассмотрим резидентные (In-Memory) базы данных на примере Tarantool и Arenadata Grid: что это, как они работают и где используются. Еще поговорим, каким образом эти Big Data системы могут ускорить работу распределенных приложений без замены существующих СУБД, а также при чем здесь промышленный интернет вещей и экосистема Apache Hadoop для хранения больших данных. Who is who на рынке In-Memory DataBase: краткий обзор самых популярных решений В 2019 году аналитическое агентство Gartner включило резидентные базы данных, в которых информация размещается в памяти, в перечень наиболее перспективных технологий в области Data Management. При этом на графике технологической зрелости (Hype Cycle) In-Memory database (IMDB) расположены на восходящем участке по пути к плато продуктивности [1]. Это не удивительно с учетом длительной Далее …

Что такое лямбда-архитектура: основы Big Data для начинающих

Big Data, Большие данные, архитектура, Spark, Hadoop, машинное обучение, интернет вещей, Internet of Things, IoT, IIoT, Machine Learning, лямбда-архитектура

Рассматривая основы больших данных, сегодня мы расскажем лямбда-архитектуру, одну из двух главных подходов к построению Big Data систем. Читайте в нашей статье, зачем нужна эта концепция и как она работает, а также при чем тут машинное обучение, интернет вещей, Apache Spark и Hadoop. Что такое Лямбда-архитектура и зачем она нужна Рассмотрим типичный кейс по рассылке контекстной рекламы о скидках в ближайшем офлайн-магазине. Для повышения конверсии необходимо персонализировать маркетинговое предложение. Для этого следует быстро и точно сегментировать каталог клиентов с учетом анализа исторических данных по каждому из них, одновременно определив местоположение конкретного абонента в режиме реального времени. За сегментирование и предиктивную аналитику клиентских потребностей отвечают алгоритмы машинного обучения (Machine Learning). При этом реклама становится нерелевантной при физическом перемещении потребителя, поэтому нужно Далее …

Как сделать город безопасным: Big Data и Machine Learning против преступности

Big Data, Большие данные, предиктивная аналитика, цифровизация, цифровая трансформация, машинное обучение, Machine Learning, дрон, беспилотник, интернет вещей, Internet of Things

Сегодня мы расскажем про интерактивные карты преступности в России и за рубежом, а также рассмотрим, как технологии больших данных (Big Data) и машинного обучения (Machine Learning) помогают обнаружить и предупредить городские преступления. Читайте в этой статье, что такое Crime Mapping, где уже запущены биометрические системы идентификации подозреваемых и как дроны используются для криминальных расследований. Что такое Crime Mapping и при чем тут Big Data Современные карты криминогенности (Crime Mapping), которые аккумулируют статистику по преступлениям, уже давно существуют во многих странах, в т.ч. с разбивкой по отдельным городам. Однако, в большинстве случаев эти данные отражают ретроспективную картину без привязки к уникальным особенностям конкретного муниципалитета. Для профилактики преступлений эта информация должна быть интегрирована с геоинформационными сервисами (ГИС) каждого региона [1]. Например, маркировка Далее …

Красивая Big Data и модный Machine Learning: 15 историй из мира fashion

Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, предиктивная аналитика, Machine Learning, бизнес, Большие данные, люди, Машинное Обучение, ритейл, женщины, 8 марта, мода, косметология, парфюмерия

В честь Международного женского дня, 8 марта, мы собрали для вас 15 интересных кейсов о том, как большие данные (Big Data) и машинное обучение (Machine Learning, ML) используются в индустрии моды и красоты. Читайте в нашей сегодняшней статье как Zara, H&M, Burberry и другие fashion-гиганты внедряют умные примерочные, виртуальных стилистов, прогнозируют модные тенденции с помощью ML-моделей, создают новые коллекции и стимулируют нас к покупкам. Big Data и Machine Learning для модной персонализации Мы уже рассказывали, как технологии больших данных изменили современный маркетинг, сделав его персональным. В мире моды индивидуальное взаимодействие с клиентом особенно ценится. Причем как в случае товаров широкого потребления, так и в luxury-сегменте. Например, в феврале 2017 года шведская компания H&M выпустила линейку одежды «Data Dress» на основе Далее …

Хайп вокруг Big Data с Machine Learning: прогнозы Gartner и российские реалии

Big Data, Большие данные, предиктивная аналитика, машинное обучение, Machine Learning, искусственный интеллект, Spark, Hadoop, Kafka, SQL

Сегодня мы поговорим, что такое Hype Cycle от самого известного аналитического агентства Gartner и как будут развиваться наиболее популярные сегодня ИТ-тренды в области больших данных (Big Data), управления данными (Data Management), машинного обучения (Machine Learning) и искусственного интеллекта (Artificial Intelligence). Что такое цикл зрелости технологий – Hype Cycle от Gartner Прежде всего поясним, что такое компания Gartner и почему ее прогнозы так высоко ценятся. Основанная в США еще 1979 году, она специализируется на консалтинге и аналитических исследованиях в ИТ. В частности, именно Gartner ввела в широкое употребление понятие ERP (enterprise resource planning) как развитие концепции планирования производственных ресурсов MRP II (manufacturing resource planning). Кроме того, каждый год Gartner публикует аналитический отчет о технологиях, наиболее востребованных сегодня и в ближайшем будущем [1]. Как Далее …

5 угроз, от которых искусственный интеллект защитит человечество, провоцируя множество новых

искусственный интеллект, Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, предиктивная аналитика, Machine Learning, бизнес, Большие данные, люди, Машинное Обучение

К 23 февраля мы собрали для вас 5 кейсов, где выступать в роли защитника будет искусственный интеллект. Смертельные болезни, внешние угрозы, преступники, экологические проблемы и чрезмерные траты ресурсов – читайте в нашей сегодняшней статье, как цифровизация на базе больших данных (Big Data) и машинного обучения (Machine Learning, ML) защитит нас от этих опасностей. Спойлер: от этих проблем – защитит отлично, но создаст множество новых. Защита от бактерий, вирусов и болезней: большие данные и машинное обучение в медицине Big Data и Machine Learning уже более 10 лет активно используется в медицине для визуализации данных (чего стоят одни только многочисленные интерактивные карты коронавируса, захватившего мир в 2020 году), в рекомендательных системах по назначению лекарственных препаратов, диагностике заболеваний по рентгеновским снимкам и прочим Далее …

Какая бывает аналитика: предиктивная, описательная и еще 2 вида аналитики больших данных

Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, управление проектами, предиктивная аналитика, интернет вещей, машинное обучение, IoT, IIoT, Machine Learning

В этой статье мы разберем одно из ключевых понятий цифровизации: что такое предиктивная аналитика и чем она отличается от дескриптивной. Также рассмотрим на практических примерах, какие виды аналитики больших данных (Big Data) еще бывают и где они используются. Читайте в нашем сегодняшнем материале, как машинное обучение (Machine Learning) и другая аналитика Big Data помогают руководителям получать целостную картинку всех аспектов бизнеса и принимать эффективные управленческие решения. 4 вида аналитики данных для эффективного управления на практическом IIoT-примере Начнем с практического определения: аналитика данных – это процесс поиска системных закономерностей в массивах информации и интерпретации найденных фактов с целью получения важных для бизнеса сведений (инсайтов, insights), которые позволят оптимизировать деятельность: увеличить доход, сократить затраты или достичь других важных результатов [1]. Принято выделять Далее …