Кому и когда нужны курсы по Kafka и другим технологиям Big Data: 5 реальных кейсов

Big Data, Большие данные, Kafka, интернет вещей, Internet of Things, IoT, IIoT, DevOps, Spark, Hadoop, Machine Learning, машинное обучение, цифровизация, цифровая трансформация

Продолжая разговор о том, как выбрать курсы по Kafka и другим технологиям больших данных (Big Data), сегодня рассмотрим, кому и в каких случаях нужно такое повышение квалификации. В этой статье мы собрали для вас 5 прикладных кейсов по Кафка для ИТ-профессионалов разных специальностей, от системного администратора до Data Engineer’а. Что такое Apache Kafka и зачем она нужна в Big Data Напомним, что такое Кафка и какова роль этой технологии в общем ландшафте Big Data решений. Apache Kafka – это реплицированный журнал сообщений в виде распределённой, горизонтально масштабируемой Big Data системы. Она используется для централизованного сбора, передачи и непрерывной потоковой обработки большого количества сообщений из различных источников: распределенные файловые системы (HDFS, Amazon S3), устройства интернета вещей (Internet of Things, IoT), в Далее …

Что такое CATWOE и как это использовать для цифровизации и других Big Data проектов

Big Data, Большие данные, предиктивная аналитика, бизнес-процессы, RFID, IIoT, IoT, Internet of Things, интернет вещей

Сегодня мы поговорим о том, что такое CATWOE и зачем эта техника бизнес-анализа нужна руководителю. Также рассмотрим практическое применение этого метода на примере реального бизнес-кейса по цифровизации крупного предприятия и внедрения Big Data системы промышленного интернета вещей (Industrial Internet of Things, IIoT) в виде RFID-технологий. Как сэкономить время на бизнес-анализ проекта и не пожалеть: готовые техники Каждый ИТ-проект, будь то комплексная цифровизация предприятия или программное решение на базе Big Data, Internet of Things, Machine Learning и других технологий Industry 4.0, начинается с этапа анализа. При этом нужно точно определить цели и ожидаемые результаты проекта, поставить задачи и описать требования к проектируемой системе. Каждая предметная область предлагает свой подход для четкого выполнения этих работ. Например, в менеджменте широко распространен 4-шаговый управленческий Далее …

Реальная цифровизация: 7 примеров эффективного внедрения Big Data, PLM и IIoT в промышленности

Big Data, Большие данные, предиктивная аналитика, Machine Learning, машинное обучение, цифровизация, цифровая трансформация, Internet Of Things, IoT, IIoT, интернет вещей, нефтегазовая отрасль, нефтянка, нефтегазовая промышленность

Продолжая разговор о том, что такое цифровой двойник и где эта технология Industry 4.0 используется на практике, сегодня мы рассмотрим несколько реальных примеров такой цифровизации в отечественной и зарубежной промышленности. Читайте в нашей статье про практическую синергию технологий Big Data, ML, PLM и IIoT в нефтегазовой, теплоэнергетической и машиностроительной отраслях. Также мы расскажем, как такая цифровизация помогла немецкому заводу Siemens на четверть сократить себестоимость изделий. Тотальная цифровизация: госкомпания по внедрению технологий I4.0 Цифровизация государственных предприятий продолжается: 20 мая 2019 года Министерство коммуникаций и связи отправило в крупные госкорпорации (Газпромнефть, Аэрофлот, РЖД, КамАЗ, Почта России, Ростех, Ростелеком и др.) проект новых методических рекомендаций по разработке стратегий цифровой трансформации [1]. Этот документ разработан в рамках национальной программы «Цифровая экономика» и предусматривает практическое Далее …

Цифровизация производства и цифровые двойники: объединяем PLM, IoT и Big Data

Big Data, Большие данные, предиктивная аналитика, Machine Learning, машинное обучение, цифровизация, цифровая трансформация, Internet Of Things, IoT, IIoT, интернет вещей, цифровой двойник

В этой статье мы разберем, что такое цифровой двойник – один из главных трендов развития 4-ой промышленной революции (Industry 4.0) на ближайшие 5 лет. Читайте в сегодняшнем материале, зачем нужен виртуальный макет завода, из чего состоит информационная модель изделия и где используются цифровые двойники. Также рассмотрим, как CALS- и PLM-технологии связаны с Big Data и интернетом вещей, а, самое главное, чем бизнесу выгодна такая цифровизация. Что такое цифровой двойник и зачем он нужен Цифровой двойник (Digital Twin) – это виртуальная интерактивная копия реального физического объекта или процесса, которая помогает эффективно управлять им, оптимизируя бизнес-операции. Например, цифровой двойник завода позволяет моделировать расположение оборудования, перемещение сотрудников, рабочие процессы и внештатные ситуации. Именно интерактивность отличает понятие цифрового двойника от термина «информационная модель изделия» (ИМИ) Далее …

Что ждет Big Data в 2020: итоги ушедшего десятилетия и будущие перспективы

Big Data, Большие данные, предиктивная аналитика, Internet Of Things, Machine Learning, интернет вещей, IoT, IIoT, машинное обучение, ИТ-планы и прогнозы 2020, цифровая трансформация

На пороге 3-го десятилетия 21 века пришло время подвести итог прошедшим годам и cделать прогнозы на будущее. В этой статье мы поговорим о ключевых событиях минувших лет, помечтаем о том, что ждет Big Data и чего нам принесет эта ИТ-область. Также поделимся с вами своими планами на 2020 год: расскажем о новых обучающих курсах и образовательных направлениях. Главные ИТ-тренды последних 10 лет в России и за рубежом В первое 10-летие 21 века облачные вычисления (Cloud Computing) и основанные на них SaaS/PaaS/IaaS-решения успешно заняли свое место в ландшафте корпоративной инфраструктуры. NoSQL-СУБД, BI-системы и технологии контейнеризации (виртуализации) перестали быть игрушкой для гиков и активно используются как крупными игроками, так и малым бизнесом. IP-телефония, онлайн ERP- и CRM-продукты с модулями предиктивной аналитики – Далее …

Apache Cassandra vs HBase: что и когда выбирать для NoSQL в Big Data

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop, IoT, Internet of Things, IIoT, интернет вещей, предиктивная аналитика

Рассмотрев ключевые сходства и различия Cassandra и HBase, сегодня мы поговорим, в каких случаях стоит выбирать ту или иную нереляционную СУБД для обработки больших данных (Big Data) в NoSQL-хранилище. Где используются NoSQL-СУБД в Big Data Прежде всего отметим основные области применения рассматриваемых нереляционных СУБД. Проанализировав наиболее известные примеры использования (use cases) Apache HBase и Кассандры, можно сделать вывод, что обе системы широко применяются для обработки временных рядов в следующих направлениях Big Data: показания smart-датчиков в IoT/IIoT; сбор и аналитика событий пользовательского поведения (действия, счетчики веб-сайтов и т.д.), в том числе для построения рекомендательных систем, о чем мы рассказывали здесь на примере стримингового сервиса Spotify; финансовые системы (биржевая аналитика, обнаружение мошенничества); агрегация данных из систем обмена сообщениями (чаты, мессенджеры, электронная почта, Далее …

10 примеров применения Apache Cassandra в 5 направлениях Big Data

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Internet of Things, IoT, IIoT, интернет вещей, машинное обучение, Machine Learning, Spark

Благодаря быстроте, надежности и другим достоинствам Apache Cassandra, эта распределенная NoSQL-СУБД широко применяется во многих Big Data проектах по всему миру. В этой статье мы собрали для вас несколько интересных примеров реального использования Кассандры в 5 ключевых направлениях современного ИТ. Где используется Apache Cassandra: 5 главных приложений c примерами Промышленные решения на базе Cassandra развёрнуты в Cisco, IBM, Cloudkick, Reddit, Digg, Rackspace, Twitter и множестве других компаний, работающих с большими данными [1]. Например, Expedia, крупная туристическая компания США, с помощью Кассандры хранит миллиарды постоянно обновляемых цен из 140 000 отелей. Apple имеет более 100 000 узлов Cassandra в production, что подтверждает отличную масштабируемость этой СУБД [2]. Другая data-driven организация, международная компания таксо-перевозок Uber использует Кассандру в нескольких датацентрах, чтобы обеспечить Далее …

Apache NiFi vs StreamSets Data Collector: выбираем ETL-средство для Big Data и IoT/IIoT

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, ETL, NiFi

Завершая разговор про ETL-инструменты Big Data и цикл статей об Apache NiFi (ANF), сегодня мы сравним его со StreamSets Data Collector (SDC): чем похожи и чем отличаются эти системы маршрутизации данных. Также рассмотрим, в каких случаях следует выбирать ту или иную платформу и почему. Что общего между Apache NiFi и StreamSets Data Collector: 5 основных сходств Итак, прежде всего, отметим, чем похожи Apache NiFi и StreamSets Data Collector. Проанализировав эти платформы маршрутизации и загрузки данных, мы выделили 5 ключевых критериев, по которым они очень близки: прикладное назначение – обе системы активно используются в качестве ETL-инструментов в комплексных проектах Big Data и интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial IoT, IIoT). О примерах практического использования SDC мы рассказывали Далее …

Apache Flume vs NiFi и еще 2 потоковые ETL-платформы Big Data и IoT/IIoT

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kubernetes, DevOps, Kafka

Рассмотрев пакетные ETL-инструменты больших данных, сегодня мы поговорим про потоковые средства загрузки и маршрутизации информации из различных источников: Apache NiFi, Fluentd и StreamSets Data Collector. Читайте в нашей статье про их сходства, различия, достоинства и недостатки. Также мы собрали для вас реальные примеры их практического использования в Big Data системах и интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial IoT, IIoT). Как используется Apache Flume для потоковых ETL-задач Из систем потоковой загрузки данных среди проектов фонда Apache Software Foundation (ASF), кроме NiFi, на практике часто используется Apache Flume – распределенная и высоконадежная система для эффективного сбора, агрегации и сохранения больших объемов логов из множества различных источников в централизованное хранилище данных. Изначально созданный для потоковой обработки логов в конвейерах, Далее …

Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data

ETL, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Hadoop

Продолжая разговор про Apache NiFi и другие ETL-инструменты больших данных, сегодня мы подробнее расскажем про пакетные средства загрузки и маршрутизации информации из различных источников: Sqoop, Chuckwa и Falcon. Читайте в нашей статье, чем они похожи и чем отличаются, а также как применяются в Big Data системах и интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial IoT, IIoT). Краткий обзор 3-х популярных ETL-систем пакетной передачи Big Data Среди фреймворков пакетной загрузки больших данных из разных источников наиболее популярными считаются следующие проекты фонда Apache Software Foundation (ASF): Chukwa – платформа сбора данных с открытым исходным кодом для мониторинга распределенных Big Data систем, построенная на базе HDFS и MapReduce, включая масштабируемость и надежность Apache Hadoop. Chukwa содержит гибкий и мощный инструментарий Далее …