Кто такой Data Engineer в Big Data: профессиональные компетенции инженера данных

Data Engineer, инженер данных, инженер Big Data

Мы уже рассказывали о некоторых профессиях Big Data, например, объясняли «для чайников», кто такие аналитик (Data Analyst) и исследователь (Data Scientist): что каждый из них должен знать и уметь, чем они занимаются и как отличаются друг от друга. Сегодня поговорим об инженере данных (Data Engineer) – его рабочих обязанностях, профессиональных компетенциях, зарплате и отличиях от вышеуказанных специалистов. Что делает инженер данных Чтобы Data Analyst и Data Scientist могли извлекать из информационных потоков и массивов Big Data знания, полезные для бизнеса, все эти большие данные должны соответствующим образом собираться и храниться. Именно этим занимается Data Engineer: настраивает инфраструктуру для Big Data, корпоративных хранилищ информации, ETL-систем, внутренних баз данных и сторонних источников (почта, CRM-, ERP- и других прикладных систем). Таким образом, инженер Далее …

Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

В этом выпуске мы продолжаем введение в Data Science для чайников, разбирая профессии Big Data, и рассказываем, кто такой Data Scientist: что необходимо знать ученому по данным и чем исследователь отличается от аналитика. Что делает ученый по данным Как и Data Analyst, исследователь данных тоже работает с информационными массивами путем выполнения следующих операций: поиск закономерностей в информационных наборах; подготовка данных к моделированию (выборка, очистка, генерация признаков, интеграция, форматирование); моделирование и визуализация данных; разработка и тестирование гипотез по улучшению бизнес-метрик через построение моделей машинного обучения (Machine Learning). Data Scientist, в большинстве случаев, ориентирован на предиктивную аналитику, тогда как аналитик данных чаще всего рассматривает информацию пост-фактум. Тем не менее, основная цель исследователя данных созвучна главной рабочей цели аналитика Big Data – извлечение Далее …

Кто такой Data Analyst в Big Data: что нужно знать аналитику данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

Продолжая разговор про то, с чего начать вход в большие данные, и какие бывают ИТ-специальности, сегодня мы расскажем, чем именно занимается аналитик Big Data, что он должен знать и уметь, а также где и как получить необходимые профессиональные компетенции. Что делает аналитик данных Как правило, Data Analyst работает с информационными массивами, самостоятельно выполняя при этом целый набор операций: сбор данных; подготовка данных к анализу (выборка, очистка, сортировка); поиск закономерностей в информационных наборах; визуализация данных для быстрого понимания имеющихся результатов и будущих тенденций; формулирование гипотез по улучшению конкретных бизнес-метрик за счет изменения других показателей. Все эти задачи необходимы для достижения главной цели аналитика данных – извлечение из массивов информации сведений, ценных бизнесу для принятия оптимальных управленческих решений. В некоторых компаниях в Далее …

Я в Big Data пойду – пусть меня научат: большие данные — с чего начать

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, интернет вещей, IoT, Internet of Things, машинное обучение, Machine Learning

Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться – ликбез для чайников и начинающих. Профессиональные направления в мире Big Data Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления: аналитика – формулирование гипотез, визуализация информации, поиск закономерностей в наборе данных (датасете), подготовка информации к Далее …

Цифровая корпорация 21-го века: что такое Data-Driven Company

Data-Driven Company, Agile, DevOps, бизнес-процессы, управление, менеджмент, администрирование, предиктивная аналитика, цифровизация, цифровая трансформация, Big Data, Большие данные

В результате цифровой трансформации «традиционного предприятия» должна получиться идеальная организация, работающая на основе данных, в т.ч. больших (Big Data). Сегодня мы поговорим, что такое Data—Driven Company, чем она отличается и как ей стать: читайте в нашей статье, какие инструменты Big Data, методы Agile и инженерные подходы системного анализа применяются для «тотальной цифровизации», повышения эффективности труда и использования данных. Что такое Data—Driven Company (DDC) Data—Driven Company – это предприятие, гибкое управляемое данными – дата-ориентированная Agile-компания, бизнес-процессы и организационная структура которой построены на основе сквозной интеграции информационных потоков и их непрерывной, в т.ч. прогнозной предиктивной, аналитике. При этом цепочка создания ценности (основного продукта) выглядит следующим образом [1]: большие данные о рабочих процессах и продуктах, текущем и прогнозном состояниях внешней среды, настоящих и Далее …

Не бойся падать – большие данные подстелят соломку: умное страхование

Большие данные, Big Data, Machine Learning, Internet of Things, IoT, машинное обучение, интернет вещей, предиктивная аналитика, страхование, цифровизация, цифровая трансформация, маркетинг

Big Data – это основа бизнеса страховых компаний, работа которых полностью основана на информации: статистике, сведениях о клиентах, страховых случаях и вероятностях их наступления, а также финансовой оценке всех этих данных. Читайте в нашей сегодняшней статье, как «большая тройка» современных информационных технологий (большие данные, машинное обучение и интернет вещей) увеличивают прибыль страховщиков, прогнозируя потребности текущих и находя новых клиентов, а также уменьшают их затраты, сокращая выплаты по мошенническим операциям. Зачем страховщикам Big Data, Machine Learning и Internet of Things Цифровизация захватила и сектор страхования: страховые компании стремятся стать data-driven организациями. Широкая продуктовая линейка и обилие информации обусловливают использование страховщиками технологий Big Data, Machine Learning и Internet of Things в следующих направлениях: персонализация страховых полисов; оценка рисков при формировании страховых тарифов; Далее …

Who is who в Agile-команде Big Data: разбор ролей Data Professional’ов

Большие данные, Big Data, Agile, DevOps, администрирование, DataOps, цифровизация, цифровая трансформация, бизнес-процессы, менеджмент, управление проектами

Ранее мы уже писали про DataOps- и DevOps-инженеров, а также про администраторов больших данных. Продолжая тему гибкого управления проектами (Agile) для повышения эффективности и ускорения бизнес-процессов, сегодня поговорим о том, какие еще специалисты нужны для успешного Big Data проекта. Профильные категории и процессы Big Data проекта Независимо от конечной цели и особенностей реализации, в команде любого проекта по большим данным выполняются все процессы по стандарту CRISP-DM, от формирования бизнес-требований до внедрения программного решения на основе разработанных аналитических моделей, в т.ч. с использованием машинного обучения (Machine Learning). Сгруппировав этапы разработки ПО со стадиями CRISP-DM, можно выделить 4 профильных категории Big Data проекта, в которых задействованы различные специалисты: Бизнес, куда входят специалисты предметной области (эксперты, потенциальные пользователи), посредники между проблемами и техническими Далее …

Битва инженеров Big Data: DataOps vs DevOps – кто за что отвечает

Большие данные, Big Data, Agile, DevOps, администрирование, DataOps, цифровизация, цифровая трансформация, бизнес-процессы

Мы уже писали о происхождении термина DataOps, а также про методы и средства реализации этой концепции непрерывной интеграции данных между процессами, командами и системами в рамках data-driven company. Продолжая тему развития Agile-подходов в мире больших данных, сегодня рассмотрим, чем отличаются сферы ответственности DataOps- и DevOps-инженеров и почему оба этих специалиста должны присутствовать в Big Data команде. Чем схожи DataOps и DevOps: 5 общих фактов На основе происхождения и целевой направленности этих понятий, можно выявить несколько характеристик, которые их объединяют: Сокращение сроков разработки и поставки готового продукта (программного приложения или актуальных данных) за счет принципов Agile, в частности, гибкости и самоорганизации; Непрерывность процессов интеграции (Continuous Integration) и развертывания (Continuous Deployment); Автоматизация процессов тестирования, развертывания и мониторинга с помощью технологий контейнеризации и Далее …

Что такое DataOps: зачем Big Data свой DevOps с блокчейном и данными

Большие данные, Big Data, Agile, DevOps, администрирование, DataOps, цифровизация, цифровая трансформация, бизнес-процессы

DataOps (DATA Operations, датаопс), по аналогии с DevOps (DEVelopment Operations, девопс) — это концепция и набор практик непрерывной интеграции данных между процессами, командами и системами для повышения эффективности корпоративного управления или отраслевого взаимодействия за счет распределенного сбора, централизованной аналитики и гибкой политики доступа к информации с учетом ее конфиденциальности, ограничений на использование и соблюдения целостности [1]. Как связаны DataOps, цифровизация и Agile-подходы, насколько это выгодно бизнесу и какие инструменты обеспечивают непрерывную работу с Big Data на практике, читайте в нашей сегодняшней статье. Как все началось: предпосылки появления DataOps Термину DataOps еще не исполнилось 5 лет, а он уже активно используется в ИТ-мире. Впервые это понятие прозвучало в 2015 году, а затем стало тиражироваться в контексте цифровизации и построения компаний, управляемых данными (data-driven Далее …

Почему каждый Data Scientist должен быть DevOps-инженером в Big Data

Большие данные, Big Data, Agile, цифровая трансформация, цифровая экономика, цифровизация, бизнес-процессы, DevOps, CRISP-DM

С точки зрения бизнеса DevOps (DEVelopment OPerations, девопс) можно рассматривать как углубление культуры Agile для управления процессами разработки и поставки программного обеспечения с помощью методов продуктивного командного взаимодействия и современных средств автоматизации. Сегодня мы поговорим о том, как эта методология используется в Big Data проектах, почему любой Data Scientist становится немного DevOps-инженером в больших данных и насколько это выгодно бизнесу. Как связаны DevOps и Agile В общем случае DevOps, как и Agile, — это набор практик для сокращения сроков выпуска конкурентоспособного программного обеспечения за счет взаимной интеграции процессов его разработки и эксплуатации путем эффективного взаимодействия профильных специалистов (аналитиков, программистов, тестировщиков, администраторов и т.д.) [1]. Этот термин стал популярным с начала 2010-х годов, в рамках развития микросервисной архитектуры, когда программный продукт строится как Далее …