Cloudera Data Science Workbench vs Arenadata Analytic Workspace: сравнительный обзор

предиктивная аналитика, архитектура, обработка данных, Big Data, большие данные, Hadoop, Arenadata, цифровизация, цифровая трансформация, Spark, DataOps, Docker, Kubernetes, Zeppelin

Самообслуживаемая аналитика больших данных – один из главных трендов в современном мире Big Data, который дополнительно стимулирует цифровизация. В продолжение темы про self-service Data Science и BI-системы, сегодня мы рассмотрим, что такое Cloudera Data Science Workbench и чем это зарубежный продукт отличается от отечественного Arenadata Analytic Workspace на базе Apache Zeppelin. Что такое Cloudera Data Science Workbench и кто этим пользуется По аналогии с российским решением Arenadata Analytic Workspace на основе open-source продукта Apache Zeppelin, Cloudera Data Science Workbench поддерживает концепцию самообслуживаемого сервиса для непрерывного цикла аналитики Big Data в корпоративных масштабах. Он позволяет управлять собственными DataOps-конвейерами, ускоряя проекты машинного обучения от исследования до промышленной эксплуатации, включая поддержку R, Python и Scala для безопасного выполнения вычислений с данными в кластерах Далее …

Чем Apache Zeppelin лучше Jupyter Notebook для интерактивной аналитики Big Data: 4 ключевых преимущества

Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security, Hadoop, PySpark, Arenadata, Apache Zeppelin, Jupyter Notebook

В этой статье мы рассмотрим, что такое Apache Zeppelin, как он полезен для интерактивной аналитики и визуализации больших данных (Big Data), а также чем этот инструмент отличается от популярного среди Data Scientist’ов и Python-разработчиков Jupyter Notebook. Что такое Apache Zeppelin и чем он полезен Data Scientist’у Начнем с определения: Apache Zeppelin – это интерактивный веб-блокнот (или «ноутбук» от notebook) с открытым исходным кодом, который поддерживает практически все этапы работы с данными в Data Science, от извлечения до визуализации, в т.ч. интерактивный анализ и совместное использование документов. Он интегрирован с Apache Spark, Flink, Hadoop, множеством реляционных и NoSQL-СУБД (Cassandra, HBase, Hive, PostgreSQL, Elasticsearch, Google Big Query, Mysql, MariaDB, Redshift), а также поддерживает различные языки программирования, популярные в области Big Data: Python, Далее …

Как управлять собственным Data Flow на Apache Spark с NiFi через Livy: разбираемся с процессорами и контроллерами

Livy, Spark, архитектура, обработка данных, Big Data, большие данные, Hadoop, NiFi, PySpark, Python, ETL

Apache Livy полезен не только при организации конвейеров обработки больших данных (Big Data pipelines) на Spark и Airflow, о чем мы рассказывали здесь. Сегодня рассмотрим, как организовать запланированный запуск пакетных Spark-заданий из Apache NiFi через REST-API Livy, с какими проблемами можно при этом столкнуться и что поможет их решить. Что внутри Apache NiFi или как связаны потоковые файлы, процессоры и контроллеры Напомним, Apache NiFi – это популярный инструмент стека Big Data для маршрутизации потоков данных (Data Flow) и организации ETL-процессов. Его дополнительным преимуществом является наличие наглядного веб-GUI, в котором конечные пользователи могут добавлять новых пунктов назначения и источники данных с возможностью воспроизведения в любое время. Основными понятиями NiFi являются следующие [1]: файл потока данных (FlowFile) – единый фрагмент информации из заголовка и Далее …

Apache Livy vs Oozie: сравнительный обзор инструментов удаленного запуска Spark-задач

Livy, Spark, архитектура, обработка данных, Big Data, большие данные, Hadoop, Apache Oozie

Продолжая разговор про Apache Livy, сегодня мы сравним этот REST API для Spark c другой популярной Big Data системой планирования рабочих процессов для управления заданиями Hadoop – Oozie. Читайте в нашей статье, что такое Apache Oozie, чем он похож на Livy и в чем между ними разница, а также когда и почему стоит выбрать тот или иной инструмент. Что такое Apache Oozie и как это работает Apache Oozie – это серверная система планирования выполнения рабочих процессов и повторяющихся задач в экосистеме Hadoop. Как и в Apache Livy, рабочие процессы в Oozie представлены в виде DAG-цепочки (Directed Acyclic Graph, ориентированный ациклический граф). Ози поддерживает запуск задач Hadoop MapReduce, Apache Hive, Pig, Sqoop, Spark, операций HDFS, UNIX Shell, SSH и электронной почты, Далее …

Что под капотом Apache Livy: принципы и особенности работы со Spark

AirFlow, Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security

Вчера мы рассказывали про особенности совместного использования Apache Spark с Airflow и достоинства подключения Apache Livy к этой комбинации популярных Big Data фреймворков. Сегодня рассмотрим подробнее, как работает Apache Livy, а также за счет чего этот гибкий API обеспечивает удобство работы с Python-кодом и общие Spark Context’ы для разных операторов Airflow и не только. Когда вам нужен с Apache Livy: 5 популярных кейсов Прежде всего, отметим типовые сценарии, когда целесообразно использовать Apache Livy при работе со Спарк [1]: необходима единая сессия Spark (session) для нескольких клиентов, которые достаточно компактны и не перегружены сложными настройками; нужно быстро настроить доступ к кластеру Spark; требуется интегрировать Spark в мобильное приложение; необходимо поддерживать работу нестабильного кластера, не изменяя каждый раз его конфигурацию; нужно организовать Далее …

Зачем вам Apache Livy или как скрестить Spark с Airflow для эффективных Big Data pipeline’ов

Spark, Airflow, обработка данных, архитектура, Livy, большие данные, Big Data

Сегодня поговорим про построение конвейеров обработки данных (data pipeline) на примере совместного использования Apache Spark с Airflow и рассмотрим типовые проблемы этой комбинации. Читайте в нашей статье, как автоматизировать задачи пакетной и потоковой обработки больших данных (Big Data) с помощью гибкого REST-API Apache Livy, включая работу с Python-кодом, отказоустойчивость и безопасность. Что не так с комбо Apache Spark и Airflow: смотрим на примере data pipeline Представим достаточно простой data pipeline, когда необходимо обеспечить запуск Spark-задач по расписанию в рамках следующего ETL-процесса [1]: непрерывный поток приходит с видеокамер, датчиков и других IoT-устройств, данные пишутся в топики Apache Kafka; одно приложение Apache Spark обеспечивает извлечение данных (Extract) в эффективном для хранения и чтения Big Data столбцовом формате, например, Parquet, чтобы далее отправить Далее …

Цифровизация рабочего пространства: ТОП-3 тенденции 2020

цифровизация, цифровая трансформация, цифровая экономика, Agile, администрирование, интернет вещей, Internet of Things, IoT

Вчера мы говорили про наиболее перспективные технологии 2020 с точки зрения исследовательского агентства Gartner и их влияние на цифровую трансформацию. Сегодня продолжим разбирать современные тенденции изменения рабочего пространства с учетом эпидемиологической напряженности и тренда на дистанционное взаимодействие. Читайте далее, что такое Desktop as a Service, как выглядит интеллектуальное рабочее пространство, чем отличается BYOD от BYOT и каким образом все это полезно для корпоративной цифровизации. Цифровизация офиса: 6 трендов 2020 от Gartner Помимо всего прочего, 2020 год также можно назвать годом удаленной работы и трансформации рабочего пространства из-за пандемии COVID-19, карантинного режима и мер по предотвращению инфекции. В связи с этим компания Gartner провела перечень самых популярных технологий по организации офисных мест, причем не только удаленных [1]: облачная цифровизация рабочей ячейки, Далее …

От ДНК-чипов до цифровых двойников: 5 самых перспективных технологий 2020 от Gartner

цифровизация, цифровая трансформация, Big Data, Большие данные, цифровая экономика, Agile

Постоянно обновляя наши курсы «Аналитика больших данных для руководителей» в соответствии с развитием области Big Data и вызовов современного бизнеса, сегодня мы расскажем про наиболее перспективные технологии с точки зрения исследовательского агентства Gartner, а также рассмотрим их влияние на цифровую трансформацию. Читайте в нашей статье, почему цифровой двойник нужен не только производству, как цифровая трансформация преобразует корпоративную архитектуру, а также при чем тут созидательный искусственный интеллект (ИИ) и доверие алгоритмам. Хайп-цикл 2020: ТОП-5 новых технологий Карантинные меры из-за пандемии COVID-19 оказали беспрецедентное влияние на все области человеческой жизни, включая ИТ-сферу. При общем негативном влиянии на мировую экономику, коронавирус выступил драйвером развития технологий удаленного взаимодействия, масштабной обработки и аналитики больших данных, о чем мы писали здесь. Поэтому неудивительно, что эксперты Gartner Далее …

ТОП-15 проблем цифровой трансформации, с которыми сталкивается каждый CDTO

цифровизация, цифровая трансформация, Big Data, Большие данные, цифровая экономика

В продолжении темы про текущее состояние и ожидаемые тренды цифровой трансформации отечественных предприятий, сегодня мы рассмотрим, что мешает директору по цифровизации успешно воплощать стратегию корпоративного изменения. Читайте далее, с какими основными трудностями сталкивается Chief Digital Transformation Officer (CDTO) и как их обойти. 5 проблем CDTO: главные факторы, препятствующие цифровой трансформации Как показал опрос ТОП-менеджеров, проведенный российской аналитической компанией KMDA в рамках исследования современного состояния отечественной цифровизации в 2020 году, наиболее значимыми факторами, которые препятствуют успешной реализации проектов Digital Transformation, считаются следующие [1]: чрезмерная загруженность повседневными делами («текучка» операционной деятельности), что отмечает каждый 2-ой руководитель; отсутствие поддержки и координации со стороны высшего руководства, недостаточно четкая концепция управления цифровой трансформацией, включая отсутствие единого органа управления, приводит к слабому кросс-функциональному взаимодействию подразделений и Далее …

Блеск и нищета отечественной цифровизации: разбор аналитического отчета KMDA 2020

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика

Недавно мы писали про 5 главных факторов, которые сдерживают цифровизацию бизнеса и государства по версии аналитического агентства Gartner. Сегодня поговорим про динамику отечественной цифровой трансформации, рассмотрев соответствующий отчет российского исследовательского бюро KMDA. Читайте в нашей статье, какие отрасли в России могут считать себя data-driven, от чего зависит успех цифровизации и каковы основные препятствия на пути к его достижению. Приоритеты, лидеры и аутсайдеры отечественной цифровизации Поскольку в нашей стране до недавнего времени аналитика больших данных (Big Data), а также непрерывный мониторинг и оптимизация бизнес-процессов были прерогативой крупных корпораций, неудивительно, что именно они являются ключевыми игроками на рынке цифровизации. Причем лидерство здесь принадлежит ИТ-сектору и финансовым предприятиям, а также отдельным направлениям ЖКХ за счет активного внедрения технологий «умного видеонаблюдения» с распознаванием лиц Далее …