Кто такой директор по цифровизации и чем он отличается от других руководителей

CDTO, директор по цифровизации, Big Data, Большие данные, бизнес-процессы, цифровизация, цифровая трансформация, управление проектами

Сегодня мы рассмотрим одно из ключевых понятий цифровой трансформации: зачем нужен директор по цифровизации (Chief Digital Transformation Officer) и чем он отличается от CIO, CEO, CDO и других управленцев высшего уровня. Читайте в нашей статье, как появилась эта должность и сколько такой руководитель стоит на рынке труда. Как появился спрос на CDTO: немного новейшей истории Национальная программа «Цифровая экономика РФ», утвержденная в 2017 году, предполагает, что цифровизация нужна не только крупному бизнесу. Цифровая трансформация затронет каждое государственное предприятие. Как известно, на практике инициация госпроектов начинается с назначения ответственных. Поэтому 4 февраля 2020 года Минкомсвязи направило в федеральные ведомства, агентства и службы требования к кандидатам на должность руководителя, ответственного за цифровую трансформацию (Chief Digital Transformation Officer, CDTO). Также этот документ включает методические рекомендации Далее …

Как Apache Kafka используется в реальном производстве: пример Северстали

Big Data, Большие данные, Kafka, архитектура, Docker, Kubernetes, Hadoop, цифровизация, цифровая трансформация, IIoT, IoT, интернет вещей, промышленность

Рассматривать обучение Кафка интереснее на практических примерах. Сегодня мы расскажем, как Apache Kafka применяется в одной из крупнейших промышленных компаний России — ПАО «Северсталь». Эта статья написана на основе выступления Доната Фетисова, главного архитектора «Северсталь Диджитал». Доклад был представлен 7 декабря 2019 года на очередном ИТ-митапе компании Авито по Big Data системам и микросервисам, «Backend United #5: Шаурма». Цифровизация, АСУТП, IIoT, Big Data и другие ИТ-вызовы современного завода Начнем с того, что ПАО «Северсталь» — это настоящий промышленный гигант, одна из ведущих вертикально-интегрированных горнодобывающих и сталелитейных компаний в мире. Основные активы предприятия сосредоточены в России, а также   на Украине, в Латвии, Польше, Италии и Либерии. Организация производит высококачественный металлопрокат и стальные трубы для строительства, машиностроения, автомобильной и нефтегазовой отраслей. Далее …

Корпоративное обучение Big Data vs индивидуальные курсы: 4 ключевых отличия

обучение Big Data, курсы по большим данным, тренинги большие данные для руководителей

Сегодня рассмотрим, чем корпоративное обучение большим данным (Big Data) отличается от индивидуального. Читайте в нашей статье, почему образовательные курсы по Apache Kafka, Hadoop, Spark и другим технологиям Big Data сплотят ваших сотрудников лучше любого тимбилдинга и как повысить эффективность такого обучающего тренинга. Почему корпоративное обучение Big Data эффективнее индивидуальных курсов: взгляд изнутри Проанализировав многолетний опыт нашего учебного центра повышения квалификации и подготовки ИТ-специалистов по большим данным, мы выделили основные факторы, которые отличают корпоративные курсы от индивидуального обучения: отраслевая специфика, когда материал подается для всей группы слушателей в контексте его бизнес-применения в данной предметной области. Например, для сотрудников нефтегазового сектора преподаватели «Школы Больших Данных» подбирают примеры Big Data и IoT/IIoT-решений, используемых в реальных отечественных и зарубежных организациях, которые добывают, обрабатывают и Далее …

Как ускорить работу producer’ов Kafka: параметры конфигурации производителей

Big Data, Большие данные, Kafka, архитектура

Вчера мы рассказывали, от чего зависит скорость работы Apache Kafka и как можно повысить. Сегодня рассмотрим подробнее, как именно конфигурация отправителей (производителей, producers) сообщений влияет на общую производительность этой распределенной Big Data системы потоковой агрегации событий. Что такое конфигурация производителей Apache Kafka Напомним, общая производительность Кафка зависит от следующих факторов: параметры аппаратного оборудования улов кластера (hardware) – память, ЦП, жесткие диски; пропускная способности сети; количество производителей и потребителей; конфигурация производителей – совокупность настроек (параметров) producer’ов, которые определяют поведение отправителей сообщений. Таким образом, настройки отправителей сообщений играют далеко не последнюю роль в общей производительности Big Data системы. Вообще официальная документация по Kafka Confluent включает около 60 параметров конфигурации производителей. Из них далеко не все напрямую влияют на скорость работы producer’ов Кафка. Далее …

Почему ваша Kafka такая медленная и как ее ускорить: 7 главных факторов производительности этой Big Data системы

Big Data, Большие данные, Kafka, архитектура

Продолжая практическое обучение Kafka, сейчас мы рассмотрим, от чего зависит производительность этой распределенной Big Data системы потоковой агрегации событий. Частично эту тему мы уже рассматривали в статье про применение Кафка в высоконагруженных проектах. Читайте в сегодняшнем материале, какие параметры влияют на скорость работы Кафка и как можно ее повысить. Как работает Apache Kafka: потоковая агрегация сообщений в Big Data Прежде чем говорить про производительность Кафка, напомним, как работает эта Big Data система. Очень кратко работу Apache Kafka можно описать следующим образом [1]: приложение-издатель (производитель, producer) отправляет сообщение в топик (topic) Кафка. При этом данные могут быть сжаты с помощью кодеков, например, gzip или snappy. Kafka объединяет сообщения в группу (пакет) для хранения в одном разделе (partition) топика; Данные записываются на диск, Далее …

Когда цифровизация не в радость: 5 громких скандалов вокруг Big Data и Machine Learning

Big Data, Большие данные, цифровизация, цифровая трансформация, бизнес, защита информации, Security, безопасность, Machine Learning, машинное обучение, утечки данных

Цифровизация не всегда приносит только положительные результаты: увеличение прибыли, сокращение расходов и прочие бонусы оптимизации бизнеса. Большие данные – это большая ответственность, с которой справится не каждый. В этой статье мы собрали 5 самых ярких событий ИТ-мира за последнюю пару лет, связанных с большими данными (Big Data) и машинным обучением (Machine Learning), которые вызвали неоднозначную реакцию и даже осуждение общественности. Вред от искусственного интеллекта или когда машинное обучение (не)виновато В декабре 2019 года автомобильная компания Mazda отозвала сообщила о дефекте в интеллектуальной тормозной системе своих 35 390 машин 2019 и 2020 модельного года, отозвав несколько десятков тысяч автомобилей. Из-за программных ошибок авто Mazda3 четвертого поколения может обнаружить несуществующий объект на своем пути и автоматически начать экстренное торможение во время вождения. Такое Далее …

Что такое гарантия доставки сообщений или как избавиться от дублей и потерь в Apache Kafka и других Big Data брокерах

Big Data, Большие данные, Kafka, архитектура

Вчера мы говорили про концепцию QaaS, очереди сообщений в Apache Kafka и другие проблемы производительности высоконагруженных систем с использованием этой Big Data платформы. Сегодня рассмотрим сложности многопоточной обработки событий в разном порядке: когда возникают подобные ситуации и как их решить. Для этого еще раз сравним Кафку с ее вечным конкурентом, RabbitMQ, и проанализируем гарантии доставки сообщений: что это такое и почему exactly-once по-разному работает для издателей/производителей (producer) и подписчиков/потребителей (consumer). Сложная маршрутизация очередей или проблемы многопоточной обработки в Big Data Несмотря на надежность, масштабируемость, высокую пропускную способность и ряд других достоинств, Apache Kafka – это не серебряная пуля для всех Big Data систем потоковой обработки событий. В частности, на практике часто возникают задачи, для решения которых Кафка по умолчанию не Далее …

Повышаем производительность Apache Kafka в высоконагруженных Big Data системах: пример Авито

Big Data, Большие данные, Kafka, архитектура

При всех достоинствах Apache Kafka, для этого популярного Big Data средства управления сообщениями характерны определенные трудности в обеспечении производительности. Сегодня мы поговорим про некоторые проблемы использования этого распределенного брокера сообщений в высоконагруженных системах. В качестве реального примера рассмотрим особенности практического использования Кафка в отечественном сервисе объявлений Авито. Что такое высоконагруженная Big Data система Прежде всего, определим, что такое высоконагруженная система (Highload) обработки больших данных (Big Data). Итак, Highload – это приложение с высокой нагрузкой, которая спровоцирована [1]: большим количеством одновременно работающих пользователей; большим объемом обрабатываемых данных; многочисленными сложными вычислениями. Для высоконагруженных систем характерны быстрое время отклика, масштабируемость и модульность. Яркие примеры высоконагруженной Big Data системы – это сайты соцсетей, крупных интернет-магазинов и другие многопользовательские веб-сервисы с миллионной аудиторией. Таким образом, Далее …

Определяем, что важнее: методы расстановки приоритетов в Big Data и цифровизации

Big Data, Большие данные, бизнес-процессы, управление проектами, системный анализ

Сегодня мы поговорим про одно из ключевых понятий управления проектами и бизнес-анализа: что такое приоритизация, почему это важно в цифровизации и внедрении технологий больших данных (Big Data). Также рассмотрим основные методы и практические техники расстановки приоритетов, которые будут полезны каждому менеджеру (руководителю) и любому специалисту: аналитику, разработчику, инженеру и исследователю данных (Data Scientist). Что такое приоритизация и зачем она нужна в Big Data и цифровизации Начнем с определения, которое приводит BABOK, профессиональный стандарт бизнес-аналитика [1]: приоритизация – это процесс определения относительной важности объекта (информации, задачи, требования и пр.) на основе предварительной оценки его значения, рисков, сложности реализация или других четких критериев. В свою очередь, дисциплина управления (Project Management) проектами также рассматривает расстановку приоритетов в контексте портфельного управления, когда необходимо сформировать Далее …

Зачем Apache Kafka и другие Big Data системы используют Zookeeper и чем его заменить

Big Data, Большие данные, Kafka, Hadoop, HBase

Рассматривая практическое обучение Kafka, сегодня мы поговорим, зачем нужен Zookeeper и можно ли использовать Кафка без этой централизованной службы синхронизации распределенных сервисов. Читайте в нашей статье о роли Zoo в системах обработки больших данных (Big Data) и о том, может ли Apache Kafka эффективно работать без Zookeeper, а также как это реализовать. Что такое Apache Zookeeper и зачем он нужен Kafka, а также другим Big Data системам Apache Zookeeper – это централизованная служба для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления групповых служб. За счет своего API, Зукипер берет на себя координацию распределенных сервисов, позволяя разработчику Big Data сосредоточиться на логике своего приложения. С развитием основных технологий больших данных (Apache Hadoop, HBase, Kafka), Zoo стал стандартом Далее …