Data Science

Big Data, Большие данные, обработка данных, машинное обучение, Machine Learning

Data Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические методы, методы искусственного интеллекта, в т.ч машинное обучение (Machine Learning). DS включает методы проектирования и разработки баз данных и прикладного программного обеспечения [1].

Немного истории: как появилась Data Science и при чем тут большие данные

В отличие от термина «большие данные», который стал популярен с 2010-х гг., наука о данных зародилась намного раньше, во второй половине 20-го века. Первое упоминание этого понятия датируется 1974 годом, когда вышла книга Петера Наура. В этой публикации Data Science определяется как дисциплина по изучению жизненного цикла цифровых данных, от момента их появления до преобразования и использования в других областях знаний. Тем не менее, широкое употребление этот термин получил лишь в 1990-е годы, а общепризнанным стал только в начале 2000-х. В частности, в 2002 году междисциплинарный Комитет по данным для науки и техники начал выпускать журнала CODATA Data Science Journal, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета [1].

Следующая волна интереса к DS возникла при популяризации понятия Big Data, с 2010 года, когда вычислительные мощности даже бытовых компьютеров стали позволять работать с большими объемами данных. Примерно с этого же времени стали проводиться многочисленные профессиональные конференции, а университеты по всему миру включили эту дисциплину в свои учебные курсы, разработав соответствующие образовательные программы.

Сегодня Data Science активно применяется в широком спектре прикладных областей деятельности: от астрономии до медицины, включая коммерческие кейсы: маркетинг, ритейл, менеджмент, финансовый анализ, предиктивная аналитика чрезвычайных ситуаций и т.д.

 

Что знает, умеет и сколько стоит Data Scientist

Специалисты в области Data Science называются учеными или исследователями по данным (Data Scientist’ами). В настоящее время это одна из самых востребованных и высокооплачиваемых ИТ-профессий. Например, в Москве на январь 2020 года месячный труд ученого по данным оценивается около 200 тысяч рублей (от 70 до 250 т.р.). В США оплата выше — $110 — $140 тысяч в год [2].

Основная практическая цель работы ученого по данным – это извлечение полезных для бизнеса сведений из больших массивов информации, выявление закономерностей, разработка и проверка гипотез путем моделирования и разработки нового программного обеспечения [3].

Для достижения этой цели Data Scientist использует следующие инструменты:

  • пакеты статистического моделирования (R-Studio, Matlab);
  • технологии больших данных (Apache Hadoop, HDFS, Spark, Kafka), NoSQL-СУБД (Cassandra, HBase, MongoDB, DynamoDB и прочие нереляционные решения);
  • SQL для работы с классическими реляционными базами данных и формирования структурированных запросов к NoSQL-решениям с помощью Apache Phoenix, Drill, Impala, Hive и пр.
  • языки программирования (Python, R, Java, Scala) для разработки моделей машинного обучения и прототипов программного обеспечения;
  • информационные системы класса Business Intelligence (дэшборды, витрины данных) для визуализации бизнес-показателей из информационных массивов.

Таким образом, можно сделать вывод, что Data Science включает следующие области знаний:

  • математика: математический анализ, матстатистика и матлогика;
  • информатика: разработка программного обеспечения, баз данных, моделей и алгоритмов машинного обучения (нейросети, байесовские алгоритмы, регрессионные ряды и пр.), Data Mining;
  • системный анализ (методы анализа предметной области, Business Intelligence).

Подробнее о профессии Data Scientist’a и его отличиях от инженера и аналитика данных (Data Engineer и Data Analyst) мы писали здесь.

Data Scientist, ученый по данным, исследователь данных, аналитик данных, Data Analyst, аналитик Big Data
Портрет профессиональных компетенций ученого по данным

Источники

  1. https://ru.wikipedia.org/wiki/Наука_о_данных
  2. https://www.profguide.io/professions/data_scientist.html
  3. https://chernobrovov.ru/articles/analitika-dannyh-i-data-science-shodstva-i-razlichiya.html