Вебинар «Цифровая трансформация бизнеса» — что с чем едят!»  

Вебинар  «Цифровая трансформация бизнеса» — что с чем едят!   Вводный вебинар для желающих разобраться с популярными трендами  развития в области больших данных, цифровой трансформации, интернета вещей и мира распределенных вычислений и машинного обучения.   Дата проведения: 20 марта 17:00 ( длительность 2 часа) стоимость 500 рублей Ориентирован на владельцев и  руководителей компаний крупного и среднего бизнеса и  всех отраслей экономики. Рассматриваются основные понятия, связанные с  цифровой трансформацией: Data mining; Машинное обучение; Big Data; Data lake; что такое Hadoop, NoSQL, Internet of Things и промышленный интернет вещей; облачные вычисления. Материал насыщен сценариями применения из разных отраслей бизнеса и экономики для решения разнообразных бизнес-задач и монетизации больших данных. Вебинар является подготовительным или вводным для специалистов, желающих начать обучение по программе «Аналитика Больших Данных для Далее …

Цифровизация и автоматизация – не одно и то же: разбираем 5 основных отличий

Цифровизация, цифровая трансформация, Digital Transformation, цифровая экономика, автоматизация, предиктивная аналитика, бизнес-процессы

Цифровизация и автоматизация – не одно и то же: разбираем 5 основных отличий Чем цифровизация отличается от автоматизации и чем они похожи: разбираем 5 главных характеристик. 90-е годы прошлого века принято считать началом современной эпохи промышленной автоматизации, когда компании стали разрабатывать и активно внедрять программно-аппаратные решения для замены ручного туда роботизированным производством и специализированным софтом [1]. Однако, сегодня практически во всех отраслях, от нефтегазового сектора до государственного управления [2], на повестке дня стоят термины «цифровизация» и «цифровая экономика». Эти понятия стали весьма популярны с конца 2016 года, после Президентского послания Федеральному собранию РФ [3]. На примере основных направлений корпоративной цифровизации, о которых мы рассказывали здесь, разбираемся, чем кардинально цифровизация отличается от автоматизации и что между ними общего.  1. Степень интеграции процессов Далее …

Как BigData и Machine Learning в нефтегазовой отрасли помогают экономить миллиарды

Цифровая скважина

Как Big Data и Machine Learning в  нефтегазовой отрасли экономит миллиарды Согласно заявлению Валерия Селезнева, первого зампреда Комитета по энергетике Госдумы РФ, сделанному в сентябре 2018 г. на VIII ежегодной конференции «Нефтегазопереработка-2018», нефтегазовая отрасль в России является главным источником валютных и налоговых поступлений страны. На ее долю приходится порядка 12% всего промышленного производства и более 40% поступлений в бюджет. Однако, несмотря на почти вековую отечественную историю этой индустрии, ее современное состояние сопровождается множество проблем, решить которые должны новейшие информационные технологии [1]. В частности, задачи оценки надежности и прогнозирования осложнений при эксплуатации оборудования с использованием машинного обучения Machine Learning в нефтегазовой отрасли, подбора методов увеличения нефтеотдачи, оптимизации транспортных маршрутов и схем поставок оборудования и продукции, а также прогнозирования эффективности разработки новых Далее …

Особенности построения озера данных (Data Lake)

5 уровней зрелости вашего предприятия и особенности  построения озера данных на каждом из них Примерно с 2013 года тема технологий Big Data преподносится в СМИ [1-3] как панацея решения почти всех бизнес-проблем, обещая многократное сокращение расходов, повышение прибыли и оптимизацию процессов за счет быстрой обработки больших объемов неструктурированной информации, поступающей из разных источников [4]. Однако, внедрение любых информационных технологий на предприятии без устоявшейся системы управления равнозначно автоматизации хаоса [5]. Прежде всего следует определить уровень корпоративной зрелости, применив для этого методологию оценки бизнес-процессов Capability Maturity Model Integration (CMMI) [6]. В таблице 1 показаны 5 уровней зрелости бизнес-процессов по CMMI-модели. Таблица 1. 5 уровней зрелости бизнес-процессов по CMMI-модели Уровень зрелости управления Состояние бизнес-процессов 5. Оптимизируемый Находятся в состоянии непрерывного мониторинга и улучшения 4. Далее …

11 марта Выездной курс по обучению руководителей «Аналитика Больших Данных», Алматы, Казахстан

Для наших клиентов и партнеров в Республике Казахстан мы предлагаем 3х дневный выездной курс по обучению руководителей и топ менеджеров основам работы с большими данными, машинному обучению, Hadoop и Интернету Вещей. В программе курса подробно рассматриваются сценарии применения технологий работы с Большими Данными (Big Data)  в различных отраслях бизнеса (Банки и финансовые учреждения, промышленность, торговля и транспорт) и организациях государственного сектора, начиная от процесса инициации проекта по цифровизации предприятия ( сбора больших данных, формирования команды проекта по аналитики больших данных) и включая все фазы жизненного цикла работы с большими данными ( подготовка данных, выбор модели, пилотное развертывание и тестирование  модели, промышленная эксплуатация). В курсе по обучению руководителей особое внимание уделяется вопросам работы с персональными данными, монетизации больших данных, обеспечение безопасности Далее …

В новой версии Apache Spark

В прошлом месяце Apache Spark выпустили свою последнюю новую версию Apache Spark 2.4.0. Это пятая версия в серии 2.x. В новой версии Apache Spark появляется метод Барьерной синхронизации для лучшей интеграции с системами глубокого обучения. Apache Spark 2.4.0 содержит более 30 встроенных функций и функций более высокого порядка для работы со сложными типами данных. Эти функции работают с Scala 2.12 и улучшают интеграцию K8s (Kubernetes). Новая версия также фокусируется на удобстве использования и стабильности. Что нового в новой версии Apache Spark 2.4.0? 1) Встроенная поддержка Apache Avro — популярного формата сериализации данных. Теперь разработчики могут считывать и записывать свои данные в Avro формате, прямо в Apache Spark 2) Устранение ограничения на размер блока 2 ГБ 3) Улучшения Pandas UDF Большие Далее …

Apache Airflow

В этой статье я бы хотел рассказать об основных концепциях Airflow и как с ним работать. Что такое Airflow? Airflow – это open-source оркестаратор для управления процессами загрузки и обработки данных. Если у вас есть большое количество задач, запускаемых на cron, особенно, если между ними есть зависимости, то Airflow может вам сильно помочь. Основные его преимущества – это несложная инсталяция и первые шаги, хорошая визуализация, а также возможность автоматически создавать большое число задач и широкие возможности кастомизации. Основной объект Airflow – это направленный ацикличный граф (DAG). Узлы DAG – это task (задачи, которые выполняют основную работу). Между task’ами есть связи. Как следует из определения, циклов в зависимостях быть не может. DAG в Airflow может состоять из множества веток, различных ветвлений Далее …

Оптимизация запросов JOIN в HIVE

В последних версиях HIVE пытается внедрить CBO (cost based optimizer) и JOIN одна из главных его составляющих. Понимание лучших примеров применения соединений является одним из ключевых факторов настройки производительности HIVE. Рассмотрим каждый вид соединений на примерах и определим их разницу: Shuffle Join (Common Join) – общее соединение или соединение в случайном порядке Этот вид соединений используется по умолчанию и включает map и reduce этапы Mapper: считывает таблицы и выводит пары ключ-значение соединения в промежуточный файл. Shuffle: эти пары сортируются и объединяются. Reducer: получает отсортированных данных и делает соединение. Варианты использования: Работает для таблиц любого размера, особенно, когда другие тип соединений не могут быть использованы, например, полное внешнее соединение. Недостатки: Большая ресурсоемкость, так как shuffle – дорогостоящая операция. Пример: select a.* Далее …

Что такое «цифровая трансформация»?

цифровая трансформация

Digital transformation или Цифровая трансформация – совокупность процессов по тотальному переходу от традиционных методов осуществления деятельности к максимально возможному внедрению современных Digital-технологий. Это новейший бизнес-тренд, направленный на компьютеризацию, использование общего и специального ПО, эксплуатация возможностей Интернета для повышения конкурентоспособности и роста прибыльности. Может показаться, что компьютеризация и использование различных программных возможностей вполне подпадает под определение автоматизации. Это не совсем корректно, ведь автоматизация – лишь один из аспектов глобальной цифровой трансформации. На самом деле имеется ввиду полный перевод бизнеса на Digital-основу с соответствующим ускорением всех процессов и повышением их эффективности. Интернет – площадка для поиска клиентов с бесконечными возможностями. И если вы желаете ими пользоваться, внедрение Digital transformation в компании становится неизбежным. Зачем это нужно? Пользы от цифровой трансформации очень много, Далее …

Что такое AirFlow?

Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов с помощью Solr и обновление существующего индекса для расширения поиска. Чтобы автоматизировать процесс и запускать его еженедельно, вы можете использовать планировщик времени, например Cron, определяя рабочие процессы в Crontab. Это действительно отлично подходит для простых рабочих процессов, но все становится хуже, когда вы начинаете поддерживать рабочий процесс в крупных проектах, где между элементами существуют зависимости. Еще это усложняется, если вы ждете каких-то входных данных от сторонних разработчиков, или другие команды Далее …