Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

В этом выпуске мы продолжаем введение в Data Science для чайников, разбирая профессии Big Data, и рассказываем, кто такой Data Scientist: что необходимо знать ученому по данным и чем исследователь отличается от аналитика. Что делает ученый по данным Как и Data Analyst, исследователь данных тоже работает с информационными массивами путем выполнения следующих операций: поиск закономерностей в информационных наборах; подготовка данных к моделированию (выборка, очистка, генерация признаков, интеграция, форматирование); моделирование и визуализация данных; разработка и тестирование гипотез по улучшению бизнес-метрик через построение моделей машинного обучения (Machine Learning). Data Scientist, в большинстве случаев, ориентирован на предиктивную аналитику, тогда как аналитик данных чаще всего рассматривает информацию пост-фактум. Тем не менее, основная цель исследователя данных созвучна главной рабочей цели аналитика Big Data – извлечение Далее …

Кто такой Data Analyst в Big Data: что нужно знать аналитику данных

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, предиктивная аналитика, машинное обучение, Machine Learning

Продолжая разговор про то, с чего начать вход в большие данные, и какие бывают ИТ-специальности, сегодня мы расскажем, чем именно занимается аналитик Big Data, что он должен знать и уметь, а также где и как получить необходимые профессиональные компетенции. Что делает аналитик данных Как правило, Data Analyst работает с информационными массивами, самостоятельно выполняя при этом целый набор операций: сбор данных; подготовка данных к анализу (выборка, очистка, сортировка); поиск закономерностей в информационных наборах; визуализация данных для быстрого понимания имеющихся результатов и будущих тенденций; формулирование гипотез по улучшению конкретных бизнес-метрик за счет изменения других показателей. Все эти задачи необходимы для достижения главной цели аналитика данных – извлечение из массивов информации сведений, ценных бизнесу для принятия оптимальных управленческих решений. В некоторых компаниях в Далее …

Я в Big Data пойду – пусть меня научат: большие данные — с чего начать

Big Data, Большие данные, профессия, карьера, цифровизация, цифровая трансформация, интернет вещей, IoT, Internet of Things, машинное обучение, Machine Learning

Этой статьей мы продолжаем серию материалов по ИТ-специальностям мира больших данных и начинаем описывать профессиональные компетенции в области Big Data и машинного обучения (Machine Learning). Ищите в сегодняшнем выпуске ответ на главный вопрос новичка Big Data – с чего начать, что нужно знать и уметь, а также где этому учиться – ликбез для чайников и начинающих. Профессиональные направления в мире Big Data Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления: аналитика – формулирование гипотез, визуализация информации, поиск закономерностей в наборе данных (датасете), подготовка информации к Далее …

Промышленный интернет вещей: 4 кейса применения Big Data в индустрии

Big Data, Большие данные, интернет вещей, IoT, Internet of Things, машинное обучение, Machine Learning

Мы уже рассказывали, как интернет вещей (Internet of Things, IoT) вместе с технологиями Big Data и машинного обучения (Machine Learning) используются в нефтегазовой, транспортной, сельскохозяйственной и машиностроительных отраслях. Сегодня поговорим подробнее про промышленный IoT (Industrial Internet of Things, IIoT) на примерах его применения в тяжелом машиностроении и рассмотрим, почему индустриальный интернет вещей основан на решениях Big Data. Чем отличается промышленный интернет вещей от IoT? Промышленный интернет вещей используется в индустриальных условиях для автоматизации производства, тогда как IoT ориентирован на решение более простых задач бытового плана. Например, «умный дом» в пределах одного домохозяйства – это сфера применения IoT, а эффективное управление многоэтажным зданием, жилым кварталом или целым городом – уже задача для IIoT-системы. При этом основная ценность от внедрения IIoT – Далее …

Как Big Data с Machine Learning борются с пробками и улучшают дороги

Big Data, Большие данные, машинное обучение, Machine Learning, транспорт, интернет вещей, IoT, Internet of Things, город, дороги, автомобили

Продолжая тему «умного» города (data-driven city), сегодня мы собрали для вас 5 практических примеров, как в крупнейших мегаполисах по всему миру интернет вещей и большие данные с датчиков, проездных билетов и дорожных камер помогают бороться с пробками и улучшать состояние дорог, повышая уровень их безопасности и удобства использования. Internet of Things и Big Data на дорогах Для решения проблемы с дорожными неровностями и сильно вдавленными в асфальт канализационными люками американская компания The New Urban Mechanics разработала мобильное приложение. С ним каждый житель Бостона может сообщить о недостатках дорожного полотна с помощью своего смартфона. Фото- и видеоматериалы автоматически отправляются на сервер коммунальных служб. В частности, в 2010 году городская администрация устранила более 7 000 неровностей. Благодаря оперативному сбору данных о дорожных проблемах, они исправляются на ранних стадиях. Так интернет Далее …

Не бойся падать – большие данные подстелят соломку: умное страхование

Большие данные, Big Data, Machine Learning, Internet of Things, IoT, машинное обучение, интернет вещей, предиктивная аналитика, страхование, цифровизация, цифровая трансформация, маркетинг

Big Data – это основа бизнеса страховых компаний, работа которых полностью основана на информации: статистике, сведениях о клиентах, страховых случаях и вероятностях их наступления, а также финансовой оценке всех этих данных. Читайте в нашей сегодняшней статье, как «большая тройка» современных информационных технологий (большие данные, машинное обучение и интернет вещей) увеличивают прибыль страховщиков, прогнозируя потребности текущих и находя новых клиентов, а также уменьшают их затраты, сокращая выплаты по мошенническим операциям. Зачем страховщикам Big Data, Machine Learning и Internet of Things Цифровизация захватила и сектор страхования: страховые компании стремятся стать data-driven организациями. Широкая продуктовая линейка и обилие информации обусловливают использование страховщиками технологий Big Data, Machine Learning и Internet of Things в следующих направлениях: персонализация страховых полисов; оценка рисков при формировании страховых тарифов; Далее …

Умная недвижимость: Big Data, Machine Learning и IoT в девелопменте

Big Data, Большие данные, машинное обучение, Machine Learning, бизнес, интернет вещей, Internet Of Things, Wi-Fi, IoT, город

Цифровизация различных прикладных отраслей продолжается — сегодня мы нашли для вас интересные кейсы, как большие данные, машинное обучение и интернет вещей используется в жилой и коммерческой недвижимости. Чем Big Data, Machine Learning и Internet Of Things (IoT) полезны строителям и риелторам, и каким образом внедрение этих технологий поможет потребителям. Big Data для прогнозирования спроса на недвижимость Собрав данные о взаимодействии пользователей с сайтами агентств недвижимости и строительных компаний, результаты соцопросов, статистику о городском населении, экономические обзоры, планы развития городских территорий и транспортной системы, можно предсказать потребности клиентов в различных видах недвижимости на будущем [1]. Например, чтобы определить в каких районах Москвы будет востребована жилая недвижимость через 10–20 лет, специалисты компании Smartis с помощью анализа больших данных прогнозируют наибольший спрос в Химках, Долгопрудном, Люберцах и Бутово. Далее …

Эко-Big Data в большом городе: как технологии делают мегаполис чище

Big Data, Большие данные, машинное обучение, Machine Learning, город, IoT, Internet Of Things, интернет вещей

Цифровизация возможна не только на предприятиях. Цифровая трансформация настигает даже города, чтобы сделать их более удобными для жителей и менее вредными для планеты. Сегодня мы подготовили для вас 8 интересных примеров по 4 разным направлениям об использовании больших данных (Big Data), машинного обучения (Machine Learning) и интернета вещей (Internet of Things) в улучшении городской инфраструктуры. Читайте в нашем материале, как оперативно следить за мусорными баками, состоянием лесопарков, велотранспортом и чистотой воздуха с помощью больших данных, машинного обучения и интернета вещей. Интернет вещей для управления мусором В Барселоне, которая считается одним из наиболее продвинутых мегаполисов в плане технического оснащения и удобства городской инфраструктуры, использование технологий Big Data и Internet Of Things в мусорных контейнерах существенно улучшило экологическую обстановку. Специальные ультразвуковые сенсоры, Далее …

Выделение признаков: зачем отбирать предикторы и как это правильно сделать – готовим датасет к Data Mining и Machine Learning

Отбор признаков, выделение предикторов

Даже после очистки и нормализации данных, выборка еще не совсем готова к моделированию. Для машинного обучения (Machine Learning) нужны только те переменные, которые на самом деле влияют на итоговый результат. В этой статье мы расскажем, что такое отбор или выделение признаков (Feature Selection) и почему этот этап подготовки данных (Data Preparation) действительно необходим. Что такое отбор признаков и зачем он нужен Выделение или отбор признаков – это процедура отбрасывания незначащих переменных из очищенной выборки перед запуском машинного обучения и интеллектуального анализа данных (Data Mining). Сокращение числа предикторов необходимо по нескольким причинам: значимость признаков – как правило, исходная выборка всегда содержит много «мусорных данных»: шумов, выбросов, а на реальный результат влияют лишь несколько предикторов [1]; точность решения – некоторые модели Machine Далее …

Нормально делай – нормально будет: нормализация на практике — методы и средства Data Preparation

нормально делай - нормально будет

Мы уже рассказали, что такое нормализация данных и зачем она нужна при подготовке выборки (Data Preparation) к машинному обучению (Machine Learning) и интеллектуальному анализу данных (Data Mining). Сегодня поговорим о том, как выполняется нормализация данных: читайте в нашем материале о методах и средствах преобразования признаков (Feature Transmormation) на этапе их генерации (Feature Engineering). Нормализация данных: методы и формулы Существует множество способов нормализации значений признаков, чтобы масштабировать их к единому диапазону и использовать в различных моделях машинного обучения. В зависимости от используемой функции, их можно разделить на 2 большие группы: линейные и нелинейные. При нелинейной нормализации в расчетных соотношениях используются функции логистической сигмоиды или гиперболического тангенса. В линейной нормализации изменение переменных осуществляется пропорционально, по линейному закону. На практике наиболее распространены следующие Далее …