Роль Python в мире Big Data: 5 причин освоить этот язык программирования

Python, Big Data, Большие данные, обработка данных, администрирование, Kafka, Hadoop, Spark

Сегодня мы расскажем, почему каждый Big Data специалист должен знать этот язык программирования и как «Школа Больших Данных» поможет вам освоить его на профессиональном уровне. Читайте в нашей статье, кому и зачем нужны корпоративные курсы по Python в области Big Data, Machine Learning и других методов Data Science. Чем хорош Python: 3 главных достоинства При том, что Python считается универсальным языком программирования, который используется, в т.ч. для веб-разработки и создания специальных решений, наибольшую популярность он приобрел в области Big Data и Data Science благодаря следующим ключевым преимуществам [1]: низкий порог входа из-за простоты и лаконичности даже сложных логических конструкций. Этот язык программирования в разы проще Java и Scala, а аналогичный код на нем будет намного короче; множество готовых библиотек для Далее …

Кто такой Data Steward: как организовать обеспечение Big Data Quality

Big Data, Большие данные, обработка данных, ETL, бизнес-процессы, люди, Data Stewardship, Data Governance, Data Management

Продолжая разговор про качество данных, сегодня мы рассмотрим организационную сторону этого аспекта и расскажем, что такое ответственность за большие данные и чем занимается дата стюард. Читайте в нашей статье про процессы Data Governance и особенности тактического управления данными: зачем нужен Data Steward, какую пользу он приносит бизнесу и сколько ему за это платят. Сложности управления данными или зачем помощники Data Quality инженеру Управление качеством данных не сводится только к обнаружению пропусков, дублей или аномальных значений. Технической стороной этого вопроса обычно занимается инженер по качеству данных (Data Quality Engineer) или тестировщик, однако исходная точка процессов Data Governance лежит в бизнес-плоскости. Управления качеством данных – это сквозной процесс в рамках операционной деятельности всего предприятия. Поэтому, по аналогии с владельцами бизнес-процессов, необходимо выделение Далее …

Кто такой Big Data Administrator: профессиональные компетенции администратора больших данных

администрирование, администратор, большие данные, administrator big data

В прошлых выпусках мы рассмотрели, чем занимаются аналитик (Data Analyst), исследователь (Data Scientist) и инженер больших данных (Data Engineer). Завершая цикл статей о самых популярных профессиях Big Data, поговорим об администраторе больших данных – его рабочих обязанностях, профессиональных компетенциях, зарплате и отличиях от других специалистов. Итак, в сегодняшней статье – Administrator Big Data «для чайников». Что делает администратор Big Data Администратор больших данных занимается созданием и поддержкой кластерных решений (в том числе облачных платформ на базе Apache Hadoop), включая: установку и развертывание кластера; выбор начальной конфигурации; оптимизацию узлов на уровне ядра; управление обновлениями и создание локальных репозиториев; настройку репликаций, аутентификаций и средств управления очередями; обеспечение информационной безопасности кластеров; мониторинг производительности и балансировка нагрузки на серверы; обеспечение информационной безопасности кластеров и Далее …

Кто такой Data Engineer в Big Data: профессиональные компетенции инженера данных

Data Engineer, инженер данных, инженер Big Data

Мы уже рассказывали о некоторых профессиях Big Data, например, объясняли «для чайников», кто такие аналитик (Data Analyst) и исследователь (Data Scientist): что каждый из них должен знать и уметь, чем они занимаются и как отличаются друг от друга. Сегодня поговорим об инженере данных (Data Engineer) – его рабочих обязанностях, профессиональных компетенциях, зарплате и отличиях от вышеуказанных специалистов. Что делает инженер данных Чтобы Data Analyst и Data Scientist могли извлекать из информационных потоков и массивов Big Data знания, полезные для бизнеса, все эти большие данные должны соответствующим образом собираться и храниться. Именно этим занимается Data Engineer: настраивает инфраструктуру для Big Data, корпоративных хранилищ информации, ETL-систем, внутренних баз данных и сторонних источников (почта, CRM-, ERP- и других прикладных систем). Таким образом, инженер Далее …

Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

В этом выпуске мы продолжаем введение в Data Science для чайников, разбирая профессии Big Data, и рассказываем, кто такой Data Scientist: что необходимо знать ученому по данным и чем исследователь отличается от аналитика. Что делает ученый по данным Как и Data Analyst, исследователь данных тоже работает с информационными массивами путем выполнения следующих операций: поиск закономерностей в информационных наборах; подготовка данных к моделированию (выборка, очистка, генерация признаков, интеграция, форматирование); моделирование и визуализация данных; разработка и тестирование гипотез по улучшению бизнес-метрик через построение моделей машинного обучения (Machine Learning). Data Scientist, в большинстве случаев, ориентирован на предиктивную аналитику, тогда как аналитик данных чаще всего рассматривает информацию пост-фактум. Тем не менее, основная цель исследователя данных созвучна главной рабочей цели аналитика Big Data – извлечение Далее …

Кто такой Data Analyst в Big Data: что нужно знать аналитику данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

Продолжая разговор про то, с чего начать вход в большие данные, и какие бывают ИТ-специальности, сегодня мы расскажем, чем именно занимается аналитик Big Data, что он должен знать и уметь, а также где и как получить необходимые профессиональные компетенции. Что делает аналитик данных Как правило, Data Analyst работает с информационными массивами, самостоятельно выполняя при этом целый набор операций: сбор данных; подготовка данных к анализу (выборка, очистка, сортировка); поиск закономерностей в информационных наборах; визуализация данных для быстрого понимания имеющихся результатов и будущих тенденций; формулирование гипотез по улучшению конкретных бизнес-метрик за счет изменения других показателей. Все эти задачи необходимы для достижения главной цели аналитика данных – извлечение из массивов информации сведений, ценных бизнесу для принятия оптимальных управленческих решений. В некоторых компаниях в Далее …

Я в Big Data пойду – пусть меня научат: большие данные — с чего начать

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, интернет вещей, IoT, Internet of Things, машинное обучение, Machine Learning

Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться – ликбез для чайников и начинающих. Профессиональные направления в мире Big Data Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления: аналитика – формулирование гипотез, визуализация информации, поиск закономерностей в наборе данных (датасете), подготовка информации к Далее …

Чем DevOps-инженер отличается от администратора Big Data и сисадмина

Agile, DevOps, бизнес-процессы, управление, менеджмент, администрирование

Несмотря на почти 20-летнюю историю термина «DevOps», даже в ИТ-среде до сих пор есть мнение, что все рабочие задачи этого девопс-инженера может выполнить рядовой системный администратор. Почему это не так и как обстоят дела с администрированием Big Data систем, читайте в нашей сегодняшней статье. Критерии и источники данных для сравнения Проанализировав описание вакансий на популярных рекрутинговых площадках (HeadHunter, Мой круг), мы составили список наиболее востребованных технологий для сисадмина, администратора Big Data и DevOps-инженера и отобрали следующие критерии сравнения этих специалистов: Главная цель и основные рабочие задачи; Время ключевые факторы возникновения профессии; Объекты работы; Необходимые компетенции (средства, инструменты и техники); Взаимодействие с другими участниками процессов разработки и эксплуатации ИТ; Заработная плата. По результатам этого сравнения сделаны выводы о наиболее часто встречающейся Далее …

Большая надежность для Big Data: эволюция Agile – SRE после DevOps

Agile, DevOps, бизнес-процессы, управление, менеджмент, администрирование, SRE

Большие данные требуют огромной гибкости и большой надежности – сегодня мы расскажем, что кто обеспечивает бесперебойную работу Google и других ИТ-гигантов и что нас ждет после DevOps. Читайте в нашей новой статье, как развиваются Agile-подходы к организации процессов разработки и эксплуатации Big Data систем и сколько это стоит. Что такое SRE и зачем это нужно Big Data Big Data системы функционируют в условиях повышенной нагрузки: постоянно увеличивающиеся потоки данных из множества разных источников хранятся и обрабатываются на распределенных серверах одного или нескольких кластеров. Благодаря механизму репликации, который поддерживает наиболее распространенная файловая система больших данных, HDFS, выход некоторых узлов из строя в большинстве случаев не приведет к полной потере информации. Однако, даже временный отказ или замедление работы приложения может быть катастрофичным Далее …

Who is who в Agile-команде Big Data: разбор ролей Data Professional’ов

Большие данные, Big Data, Agile, DevOps, администрирование, DataOps, цифровизация, цифровая трансформация, бизнес-процессы, менеджмент, управление проектами

Ранее мы уже писали про DataOps- и DevOps-инженеров, а также про администраторов больших данных. Продолжая тему гибкого управления проектами (Agile) для повышения эффективности и ускорения бизнес-процессов, сегодня поговорим о том, какие еще специалисты нужны для успешного Big Data проекта. Профильные категории и процессы Big Data проекта Независимо от конечной цели и особенностей реализации, в команде любого проекта по большим данным выполняются все процессы по стандарту CRISP-DM, от формирования бизнес-требований до внедрения программного решения на основе разработанных аналитических моделей, в т.ч. с использованием машинного обучения (Machine Learning). Сгруппировав этапы разработки ПО со стадиями CRISP-DM, можно выделить 4 профильных категории Big Data проекта, в которых задействованы различные специалисты: Бизнес, куда входят специалисты предметной области (эксперты, потенциальные пользователи), посредники между проблемами и техническими Далее …