Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

В этом выпуске мы продолжаем введение в Data Science для чайников, разбирая профессии Big Data, и рассказываем, кто такой Data Scientist: что необходимо знать ученому по данным и чем исследователь отличается от аналитика. Что делает ученый по данным Как и Data Analyst, исследователь данных тоже работает с информационными массивами путем выполнения следующих операций: поиск закономерностей в информационных наборах; подготовка данных к моделированию (выборка, очистка, генерация признаков, интеграция, форматирование); моделирование и визуализация данных; разработка и тестирование гипотез по улучшению бизнес-метрик через построение моделей машинного обучения (Machine Learning). Data Scientist, в большинстве случаев, ориентирован на предиктивную аналитику, тогда как аналитик данных чаще всего рассматривает информацию пост-фактум. Тем не менее, основная цель исследователя данных созвучна главной рабочей цели аналитика Big Data – извлечение Далее …

Как интернет вещей использует Big Data: архитектура IoT-систем

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, архитектура

Мы уже немного рассказывали об архитектуре IoT-систем в статье про промышленный интернет вещей. Сегодня поговорим подробнее про аппаратные и программные компоненты Internet of Things и IIoT, а также разберем, как малые данные со множества датчиков преобразуются в Big Data. Архитектура IoT-системы Типовая архитектура IIoT-систем состоит из следующих 3-х уровней [1]: конечные устройства (вещи, Things) – датчики, сенсоры, контроллеры и прочее периферийное оборудование для измерения необходимых показателей и передачи этих данных в сеть по проводным или беспроводным протоколам (Serial, RS-485, MODBUS, CAN bus, OPC UA, BLE, WiFi, Bluetooth, 6LoRaWAN, Sigfox и пр.). Поскольку каждая «порция» этой информации невелика по объему, такие данные называют малыми (Little Data). сетевые шлюзы и хабы (Network)– роутеры, которые объединяют и подключают конечные устройства к облаку. Облако (Cloud) Далее …

Промышленный интернет вещей: 4 кейса применения Big Data в индустрии

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, машинное обучение, Machine Learning

Мы уже рассказывали, как интернет вещей (Internet of Things, IoT) вместе с технологиями Big Data и машинного обучения (Machine Learning) используются в нефтегазовой, транспортной, сельскохозяйственной и машиностроительных отраслях. Сегодня поговорим подробнее про промышленный IoT (Industrial Internet of Things, IIoT) на примерах его применения в тяжелом машиностроении и рассмотрим, почему индустриальный интернет вещей основан на решениях Big Data. Чем отличается промышленный интернет вещей от IoT? Промышленный интернет вещей используется в индустриальных условиях для автоматизации производства, тогда как IoT ориентирован на решение более простых задач бытового плана. Например, «умный дом» в пределах одного домохозяйства – это сфера применения IoT, а эффективное управление многоэтажным зданием, жилым кварталом или целым городом – уже задача для IIoT-системы. При этом основная ценность от внедрения IIoT – Далее …

Как Big Data с Machine Learning борются с пробками и улучшают дороги

Big Data, Большие данные, машинное обучение, Machine Learning, транспорт, интернет вещей, IoT, Internet of Things, город, дороги, автомобили

Продолжая тему «умного» города (data-driven city), сегодня мы собрали для вас 5 практических примеров, как в крупнейших мегаполисах по всему миру интернет вещей и большие данные с датчиков, проездных билетов и дорожных камер помогают бороться с пробками и улучшать состояние дорог, повышая уровень их безопасности и удобства использования. Internet of Things и Big Data на дорогах Для решения проблемы с дорожными неровностями и сильно вдавленными в асфальт канализационными люками американская компания The New Urban Mechanics разработала мобильное приложение. С ним каждый житель Бостона может сообщить о недостатках дорожного полотна с помощью своего смартфона. Фото- и видеоматериалы автоматически отправляются на сервер коммунальных служб. В частности, в 2010 году городская администрация устранила более 7 000 неровностей. Благодаря оперативному сбору данных о дорожных проблемах, они исправляются на ранних стадиях. Так интернет Далее …

Почему каждый Data Scientist должен быть DevOps-инженером в Big Data

Большие данные, Big Data, Agile, цифровая трансформация, цифровая экономика, цифровизация, бизнес-процессы, DevOps, CRISP-DM

С точки зрения бизнеса DevOps (DEVelopment OPerations, девопс) можно рассматривать как углубление культуры Agile для управления процессами разработки и поставки программного обеспечения с помощью методов продуктивного командного взаимодействия и современных средств автоматизации. Сегодня мы поговорим о том, как эта методология используется в Big Data проектах, почему любой Data Scientist становится немного DevOps-инженером в больших данных и насколько это выгодно бизнесу. Как связаны DevOps и Agile В общем случае DevOps, как и Agile, — это набор практик для сокращения сроков выпуска конкурентоспособного программного обеспечения за счет взаимной интеграции процессов его разработки и эксплуатации путем эффективного взаимодействия профильных специалистов (аналитиков, программистов, тестировщиков, администраторов и т.д.) [1]. Этот термин стал популярным с начала 2010-х годов, в рамках развития микросервисной архитектуры, когда программный продукт строится как Далее …

Умная недвижимость: Big Data, Machine Learning и IoT в девелопменте

Big Data, Большие данные, машинное обучение, Machine Learning, бизнес, интернет вещей, Internet Of Things, Wi-Fi, IoT, город

Цифровизация различных прикладных отраслей продолжается — сегодня мы нашли для вас интересные кейсы, как большие данные, машинное обучение и интернет вещей используется в жилой и коммерческой недвижимости. Чем Big Data, Machine Learning и Internet Of Things (IoT) полезны строителям и риелторам, и каким образом внедрение этих технологий поможет потребителям. Big Data для прогнозирования спроса на недвижимость Собрав данные о взаимодействии пользователей с сайтами агентств недвижимости и строительных компаний, результаты соцопросов, статистику о городском населении, экономические обзоры, планы развития городских территорий и транспортной системы, можно предсказать потребности клиентов в различных видах недвижимости на будущем [1]. Например, чтобы определить в каких районах Москвы будет востребована жилая недвижимость через 10–20 лет, специалисты компании Smartis с помощью анализа больших данных прогнозируют наибольший спрос в Химках, Долгопрудном, Люберцах и Бутово. Далее …

Эко-Big Data в большом городе: как технологии делают мегаполис чище

Big Data, Большие данные, машинное обучение, Machine Learning, город, IoT, Internet Of Things, интернет вещей

Цифровизация возможна не только на предприятиях. Цифровая трансформация настигает даже города, чтобы сделать их более удобными для жителей и менее вредными для планеты. Сегодня мы подготовили для вас 8 интересных примеров по 4 разным направлениям об использовании больших данных (Big Data), машинного обучения (Machine Learning) и интернета вещей (Internet of Things) в улучшении городской инфраструктуры. Читайте в нашем материале, как оперативно следить за мусорными баками, состоянием лесопарков, велотранспортом и чистотой воздуха с помощью больших данных, машинного обучения и интернета вещей. Интернет вещей для управления мусором В Барселоне, которая считается одним из наиболее продвинутых мегаполисов в плане технического оснащения и удобства городской инфраструктуры, использование технологий Big Data и Internet Of Things в мусорных контейнерах существенно улучшило экологическую обстановку. Специальные ультразвуковые сенсоры, Далее …

Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning

Отбор признаков, выделение предикторов

Даже после очистки и нормализации данных, выборка еще не совсем готова к моделированию. Для машинного обучения (Machine Learning) нужны только те переменные, которые на самом деле влияют на итоговый результат. В этой статье мы расскажем, что такое отбор или выделение признаков (Feature Selection) и почему этот этап подготовки данных (Data Preparation) действительно необходим. Что такое отбор признаков и зачем он нужен Выделение или отбор признаков – это процедура отбрасывания незначащих переменных из очищенной выборки перед запуском машинного обучения и интеллектуального анализа данных (Data Mining). Сокращение числа предикторов необходимо по нескольким причинам: значимость признаков – как правило, исходная выборка всегда содержит много «мусорных данных»: шумов, выбросов, а на реальный результат влияют лишь несколько предикторов [1]; точность решения – некоторые модели Machine Далее …

Нормально делай – нормально будет: нормализация на практике — методы и средства Data Preparation

нормально делай - нормально будет

Мы уже рассказали, что такое нормализация данных и зачем она нужна при подготовке выборки (Data Preparation) к машинному обучению (Machine Learning) и интеллектуальному анализу данных (Data Mining). Сегодня поговорим о том, как выполняется нормализация данных: читайте в нашем материале о методах и средствах преобразования признаков (Feature Transmormation) на этапе их генерации (Feature Engineering). Нормализация данных: методы и формулы Существует множество способов нормализации значений признаков, чтобы масштабировать их к единому диапазону и использовать в различных моделях машинного обучения. В зависимости от используемой функции, их можно разделить на 2 большие группы: линейные и нелинейные. При нелинейной нормализации в расчетных соотношениях используются функции логистической сигмоиды или гиперболического тангенса. В линейной нормализации изменение переменных осуществляется пропорционально, по линейному закону. На практике наиболее распространены следующие Далее …

Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна

Нормализация данных – это одна из операций преобразования признаков (Feature Transformation), которая выполняется при их генерации (Feature Engineering) на этапе подготовки данных (Data Preparation). В этой статье мы расскажем, почему необходимо нормализовать значения переменных перед тем, как запустить моделирование для интеллектуального анализа данных (Data Mining). Что такое нормализация данных и чем она отличается от нормировки и нормирования В случае машинного обучения (Machine Learning), нормализация – это процедура предобработки входной информации (обучающих, тестовых и валидационных выборок, а также реальных данных), при которой значения признаков во входном векторе приводятся к некоторому заданному диапазону, например, [0…1] или [-1…1] [1]. Следует отличать понятия нормализации, нормировки и нормирования. Нормировка – это корректировка значений в соответствии с некоторыми функциями преобразования, с целью сделать их более удобными для сравнения. Например, Далее …