Большие данные (Big Data): сферы применения технологии

большие данные

Big Data или Большие Данные – совокупность технологий и инструментов, призванных решить проблему операций с большими информационными массивами. Причем значительно сокращаются проблемы не только с неструктурированными, но и структурированными данными. Проблема обработки крупных и часто хаотичных информационных пакетов зародилась в IT-сфере. С ростом компьютеризации общества и всех сфер его деятельности, данная проблема стала почти всеобщей. Чтобы решить ее, был разработан пакет инструментов, получивший общее название «Большие Данные». Он позволяет структурировать информационные массивы, изменять их в зависимости от необходимости, искать закономерности, осуществлять прогнозирование, находить отдельные данные и категории данных по заданным критериям, а также выполнять многие другие операции. Где применяются технологии Больших Данных? Если у вас есть большой массив информации, быстро и эффективно работать с ней можно только используя инструментарий Big Далее …

Машинное обучение: наглядные примеры применения

Машинное обучение

Если говорить об уровне совершенства современных программ и программируемых систем, то наиболее наглядно его показывает машинное обучение. Это активно разрабатываемый сейчас класс алгоритмов и методов работы искусственного интеллекта, подразумевающий не просто решение системой задач, а ее самостоятельный поиск верного направления на основе анализа и консолидации подобных задач, решение для которых уже найдено. На первый взгляд способность программ самостоятельно обучаться кажется фантастикой, однако, сейчас машинное обучение уже является достаточно распространенной и широко используемой технологией. Сферы применения Вот только некоторые общеизвестные варианты использования методик машинного обучения: сайт YELP, где технология используется для автоматизации классификации изображений; PINTEREST – курирование и повышение качества поиска контента; FACEBOOK – автоматическое самообучение многочисленных чатботов; TWITTER – автоматическое построение новостных лент пользователей; GOOGLE – самообучение нейронных сетей; EDGECASE Далее …

Data mining – что это такое?

Data mining – что это такое?

Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного. Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому именно теперь формируется фактически новое направление, в котором появляются свои термины и инструменты. Задачи, решаемые с помощью инструментов Data mining Инструментарий Data mining используется для решения целого спектра задач. Среди которых: классификация данных по заранее определенным категориям; кластеризация данных на группы, похожие между собой по заданным параметрам; ассоциация – поиск и обработка повторяющихся данных, как цельных, так и участков; прогнозирование – поиск и анализ предстоящих состояний данных на основе информации Далее …

Что такое AirFlow?

Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов с помощью Solr и обновление существующего индекса для расширения поиска. Чтобы автоматизировать процесс и запускать его еженедельно, вы можете использовать планировщик времени, например Cron, определяя рабочие процессы в Crontab. Это действительно отлично подходит для простых рабочих процессов, но все становится хуже, когда вы начинаете поддерживать рабочий процесс в крупных проектах, где между элементами существуют зависимости. Еще это усложняется, если вы ждете каких-то входных данных от сторонних разработчиков, или другие команды Далее …

Большие данные: общее описание и примеры использования

big data

Большие Данные (Big Data) – определение, широко используемое айтишниками, статистиками и другими специалистами, работающими с данными. В последнее время оно стало настолько распространенным, что просочилось из узкоспециализированной сферы в общий лексикон. Многие уже слышали разговоры о Big Data, но сходу не так просто разобраться, что это такое и где оно требуется. Термин «Большие данные» сейчас не обозначает что-то конкретное. Как правило, так принято определять целое направление инструментов и алгоритмов, предназначенных для работы с большими массивами упорядоченных и разрозненных данных в условиях постоянного роста их объема и изменения структура. Это сложная задача, и достаточно разносторонняя, поэтому не существует какого-то одного универсального инструмента для ее решения. Практические примеры использования «больших данных» Чтобы лучше понять, что такое Большие Данные, и где ее методы Далее …

Hadoop: практичное применение инструмента

hadoop

Hadoop – специализированный пакет алгоритмов и инструментов, предназначенных для массированной обработки информации. Его задача – работа с крупнейшими массивами данных, упорядоченных и неупорядоченных. Инструмент настолько эффективен, что достаточно широко используется в ряде алгоритмов поисковых систем и при построении ресурсоемких сайтов. Однако, Hadoop можно использовать и в гораздо более практичных и приближенных к повседневным задачам целях. Например, внедрить систему в своей компании для решения различных задач, связанных со структурированием и анализом имеющихся и поступающих данных. Суть Hadoop заключается в том, что этот пакет предполагает работу не на одном устройстве, а на целом кластере, каждая система в котором получает одну и ту же задачу. В результате объединения усилий кластера решение находится максимально быстро. Задачи, которые можно решить с помощью Hadoop Вариантов корпоративного Далее …

Без рубрики

14-16 ноября-«Безопасность озера данных Hadoop HortonWorks»

3х-дневный практический workshop по обеспечению безопасности озер данных (Data Lakes) на кластерах Hadoop  (рассматриваемые дистрибутивы HortonWorks, ArenaData, Cloudera). Практически рассмотрим модели безопасности, настройка периметра безопасности Data Lakes, средства контроля доступа к большим данным, аудит, шифрование, антивирусная защита … Подробнее смотрите на сайте  курс «Безопасность озера данных Hadoop (HortonWorks HDP)»   Related Posts:Безопасность озера данных Hadoop (Cloudera…DSEC: Безопасность озера данных HadoopHADM: Администрирование кластера HadoopHDDE: Hadoop для инженеров данных

21-23 января -«Kafka кластер администратор»

Новый 3х дневный курс по администрированию и настройке кластера Apache Kafka.  Распределенная потоковая обработка с использованием Kafka Streaming.  Узнай подробности на курсе…. Related Posts:KAFKA: Apache Kafka кластер администраторHADM: Администрирование кластера HadoopKSQL — для тех кто любит Kafka и не знает JavaHDDE: Hadoop для инженеров данных

26-30 ноября 5-дневный курс «Data Science — Машинное обучение в R» 

Практические навыки алгоритмов машинного обучения с использованием R: Априори, нейронные сети, линейная, логистическая и множественная регрессия, кластеризация Related Posts:DSML: Машинное обучение в RАдминистрирование кластера HadoopDSAV: Анализ данных и визуализация в RBDAM: Аналитика больших данных для руководителей

5-7 декабря курс «Аналитика больших данных для менеджеров»

Все что необходимо руководителям и менеджерам для понимания принципов аналитики больших данных, основ построения кластеров Hadoop, цифровой трансформации, Промышленного Интернета Вещей, машинного обучения и Data mining Related Posts:BDAM: Аналитика больших данных для руководителейБезопасность озера данных Hadoop (Cloudera…DSEC: Безопасность озера данных HadoopHDDE: Hadoop для инженеров данных