Big Data в профиль: что такое профилирование больших данных

Big Data, Большие данные, обработка данных, архитектура, Hadoop, ETL, DWH, нефтянка, нефтегазовая промышленность, Spark

Мы уже затрагивали тему корпоративных хранилищ данных (КХД), управления мастер-данными и нормативно-справочной информаций (НСИ) в контексте технологий Big Data. В продолжение этого, сегодня рассмотрим, что такое профилирование данных, зачем это нужно, при чем тут озера данных (Data Lake) и ETL-процессы, а также прочие аспекты инженерии и аналитики больших данных. Что такое Data Profiling и как это связано с Big Data Начнем с определения: профилирование данных (Data Profiling) – это процесс исследования данных для выяснения их статистических характеристик, таких как характер распределения величин, наличие выбросов, параметры выборки. Также сюда входит предварительная оценка качества данных: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и пр. [1]. Можно выделить следующие практические приложения, когда профилирование данных является обязательной процедурой: исследование данных Далее …

Роль Python в мире Big Data: 5 причин освоить этот язык программирования

Python, Big Data, Большие данные, обработка данных, администрирование, Kafka, Hadoop, Spark

Сегодня мы расскажем, почему каждый Big Data специалист должен знать этот язык программирования и как «Школа Больших Данных» поможет вам освоить его на профессиональном уровне. Читайте в нашей статье, кому и зачем нужны корпоративные курсы по Python в области Big Data, Machine Learning и других методов Data Science. Чем хорош Python: 3 главных достоинства При том, что Python считается универсальным языком программирования, который используется, в т.ч. для веб-разработки и создания специальных решений, наибольшую популярность он приобрел в области Big Data и Data Science благодаря следующим ключевым преимуществам [1]: низкий порог входа из-за простоты и лаконичности даже сложных логических конструкций. Этот язык программирования в разы проще Java и Scala, а аналогичный код на нем будет намного короче; множество готовых библиотек для Далее …

Интеграция Elasticsearch с Apache Hadoop: примеры и особенности

Big Data, Большие данные, обработка данных, архитектура, NoSQL, Elasticsearch, Hadoop, Spark, банк, Hive

В этой статье поговорим про интеграцию ELK-стека с экосистемой Apache Hadoop: зачем это нужно и с помощью каких средств можно организовать обмен данными между HDFS и Elasticsearch, а также при чем здесь Apache Spark, Hive и Storm. Еще рассмотрим несколько практических примеров, где реализована такая интеграция Big Data систем для построения комплексной аналитической платформы. Зачем нужна интеграция Elasticsearch с Apache Hadoop Как обычно, начнем с описания бизнес-потребности, для чего вообще требуется обмен данными между компонентами Apache Hadoop и ELK Stack. Напомним, Hadoop отлично подходит для пакетной обработки Big Data, но не подходит для интерактивных вычислений из-за особенностей классического MapReduce, связанного с записью промежуточных вариантов на жесткий диск. Elasticsearch, напротив, работает в режиме near real-time, оперативно показывая результаты аналитической обработки неструктурированных Далее …

Big Data, Machine Learning и Internet of Things в складской логистике: 7 FMCG-кейсов

Big Data, Большие данные, обработка данных, ритейл, предиктивная аналитика, интернет вещей, Internet of Things, IoT, IIoT, машинное обучение, Machine Learning, дрон, квадрокоптер, RFID, Kafka, Spark, Hadoop

Вчера мы затрагивали тему управления поставками в ритейле с помощью технологий Big Data и Machine Learning. Теперь разберем подробнее, как большие данные, машинное обучение и интернет вещей меняют складскую логистику и насколько это выгодно бизнесу. Сегодня мы собрали для вас 7 практических примеров: кейсы от отечественных и зарубежных транспортных компаний, а также крупных FMCG-компаний. 5 направлений использования Big Data, Machine Learning и Internet of Things в логистике Сначала перечислим наиболее перспективные приложения технологий Big Data, Machine Learning и Internet of Things в логистике: складская роботизация – от «умных» погрузчиков до дронов. Например, в Amazon маленькие роботы KIVA самостоятельно перемещают предметы внутри склада, сокращая расходы на 20%. В этой же компании летающие дроны успешно доставляют заказы удаленностью до 30 минут [1]. Далее …

Завод, телеком и госсектор: 3 примера внедрения Arenadata

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Data Lake, цифровизация, цифровая трансформация, Kafka, Spark, NiFi, Airflow, DWH, Аренадата, Arenadata

В этой статье мы продолжим рассказывать про практическое использование отечественных Big Data решений на примере российского дистрибутива Arenadata Hadoop (ADH) и массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB). Сегодня мы приготовили для вас еще 3 интересных кейса применения этих решений в проектах цифровизации бизнеса и государственном управлении. Великолепная 5-ка в отечественном Big Data конкурсе Далее рассмотрим следующие Big Data проекты: технологическая платформа для объединения федеральных хранилищ данных (ХД) и аналитики в ПАО «Ростелеком»; цифровая платформа Счетной палаты РФ; озеро данных (Data Lake) Новолипецкого металлургического комбината; распределённая СУБД для аналитики больших данных в X5 Retail Group. Все эти проекты, участвовали в конкурсе ИТ-портала Global CIO «Проект года-2019» и вошли в ТОП-5 лучших решений, наряду с «умным» озером Далее …

Современное КХД в облаках: гибриды, лямбда, MPP и прочая Big Data

Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, ETL, Hive, Impala, Spark, Machine Learning, машинное обучение, корпоративное хранилище данных, облачные вычисления, облачное КХД, Data warehouse, DWH

В продолжение темы про корпоративные хранилища данных, сегодня мы рассмотрим облачные варианты Data Warehouse с учетом тренда на расширенную аналитику Big Data на базе машинного обучения. Читайте в нашей статье про синергию классической LSA-архитектуры локального КХД с Лямбда-подходом, MPP-СУБД, а также Apache Hadoop, Spark, Hive и другими технологиями больших данных. Достоинства и недостатки облачных DWH КХД может быть реализовано не только в локальном датацентре предприятия. Облачные вычисления, когда процесс хранения и обработки данных выполняется на стороне внешнего сервиса или платформы, занимают свою нишу и в области Data Warehouse. Основными преимуществами, которые получают компании от использования подобных решений, считаются следующие [1]: быстрота развертывания за счет использования типизированных шаблонов, экономия времени на проектирование и реализацию локального продукта; отказоустойчивость благодаря геораспределенному реплицированию, резервному Далее …

Data lineage и provenance: близнецы или двойняшки – Big Data Management для начинающих

Big Data, Большие данные, обработка данных, ETL, Hadoop, Airflow, Spark, Kafka, Data Lineage, Data Provenance, Data Governance, Data Management

В этой статье мы продолжим разговор про основы управления данными и рассмотрим, что такое data provenance и data lineage, чем похожи и чем отличаются эти понятия. Также разберем, почему эти термины особенно важны для Big Data, какие инструменты помогают работать с ними, а также при чем здесь GDPR. Что такое Data lineage и Data provenance Прежде всего отметим, что оба термина имеют достаточно близки друг к друг по значению. Они даже переводятся на русский язык одинаково – «происхождение данных». Однако, считать их синонимами не совсем корректно. Data lineage (линия данных) – информация, которая описывает движение данных от источника их происхождения по точкам обработки и применения. Эти метаданные обеспечивают наглядность, позволяя отследить ошибки и выявить основные причины их появления в процессе Далее …

Когда количество не переходит в качество: почему большие данные требуют обеспечения Data Quality

Data Management, Big Data, Большие данные, Spark, Airflow, машинное обучение, Machine Learning, обработка данных, ETL, Data Quality Assurance

Сегодня мы поговорим про качество данных – что это за показатель, в чем он измеряется и почему так важен для машинного обучения и других приложений Big Data. Читайте в нашей статье про процессы и инструменты управления качеством данных, а также профессию Data Quality инженера. Почему большие данные должны быть качественными или что такое Data Quality Большие данные полезны только когда из них можно извлечь ценные для бизнеса сведения – инсайты. Чтобы анализировать множество файлов или записей Big Data, эти информационные наборы должны обладать не только определенной структурой, но и отвечать следующим характеристикам [1]: актуальность – соответствие данных отражают реальному состоянию целевого объекта в текущий период времени; объективность — точность отражения данными реального состояния целевого объекта, которая зависит от методов и Далее …

Что такое Каппа-архитектура: альтернатива Лямбда для потоков Big Data

Big Data, Большие данные, Kafka, архитектура, Spark, Hadoop, машинное обучение, Machine Learning, Каппа, Лямбда

Вчера мы рассказали, что такое лямбда-архитектура. Сегодня рассмотрим Каппа — альтернативный подход к проектированию Big Data систем. Читайте в нашей статье, зачем нужна эта концепция, каковы ее достоинства и недостатки, чем Каппа отличается от Лямбда, где это используется на практике и при чем тут Apache Kafka с Machine Learning. Зачем нужна Каппа-архитектура и как она устроена При всех достоинствах Лямбда-архитектуры, главным недостатком этого подхода к проектированию Big Data систем считается его сложность из-за дублирования логики обработки данных в холодном и горячем путях. Поэтому в 2014 году была предложена Каппа — альтернативная модель, которая потребляет меньше ресурсов, но отлично подходит для обработки событий в режиме реального времени [1]. В отличие от лямбда, в Каппа-архитектуре потоковые данные проходят по одному пути. Все Далее …

Что такое лямбда-архитектура: основы Big Data для начинающих

Big Data, Большие данные, архитектура, Spark, Hadoop, машинное обучение, интернет вещей, Internet of Things, IoT, IIoT, Machine Learning, лямбда-архитектура

Рассматривая основы больших данных, сегодня мы расскажем лямбда-архитектуру, одну из двух главных подходов к построению Big Data систем. Читайте в нашей статье, зачем нужна эта концепция и как она работает, а также при чем тут машинное обучение, интернет вещей, Apache Spark и Hadoop. Что такое Лямбда-архитектура и зачем она нужна Рассмотрим типичный кейс по рассылке контекстной рекламы о скидках в ближайшем офлайн-магазине. Для повышения конверсии необходимо персонализировать маркетинговое предложение. Для этого следует быстро и точно сегментировать каталог клиентов с учетом анализа исторических данных по каждому из них, одновременно определив местоположение конкретного абонента в режиме реального времени. За сегментирование и предиктивную аналитику клиентских потребностей отвечают алгоритмы машинного обучения (Machine Learning). При этом реклама становится нерелевантной при физическом перемещении потребителя, поэтому нужно Далее …