Data mining – что это такое?

Data mining – что это такое?

Одним из относительно новых терминов стало словосочетание Data mining, подразумевающее извлечение определенных данных из общего массива, упорядоченного или не упорядоченного. Работа с большими массивами данных – достаточно новая задача, инструментарий для решения которой в данный момент фактически только прорабатывается и совершенствуется. Подобных вызовов в практике человечества ранее не существовало, поэтому именно теперь формируется фактически новое направление, в котором появляются свои термины и инструменты. Задачи, решаемые с помощью инструментов Data mining Инструментарий Data mining используется для решения целого спектра задач. Среди которых: классификация данных по заранее определенным категориям; кластеризация данных на группы, похожие между собой по заданным параметрам; ассоциация – поиск и обработка повторяющихся данных, как цельных, так и участков; прогнозирование – поиск и анализ предстоящих состояний данных на основе информации Далее …

Что такое AirFlow?

Планируем рабочие процессы вместе с Apache Airflow Почему Apache Airflow? Большинство процессов обработки данных строятся на определении набора «задач» для извлечения, анализа, преобразования, загрузки и хранения данных. Например, последовательность обработки данных может состоять из таких задач, как чтение логов из S3, создание задания Spark для извлечения соответствующих объектов, индексирование объектов с помощью Solr и обновление существующего индекса для расширения поиска. Чтобы автоматизировать процесс и запускать его еженедельно, вы можете использовать планировщик времени, например Cron, определяя рабочие процессы в Crontab. Это действительно отлично подходит для простых рабочих процессов, но все становится хуже, когда вы начинаете поддерживать рабочий процесс в крупных проектах, где между элементами существуют зависимости. Еще это усложняется, если вы ждете каких-то входных данных от сторонних разработчиков, или другие команды Далее …

Большие данные: общее описание и примеры использования

big data

Большие Данные (Big Data) – определение, широко используемое айтишниками, статистиками и другими специалистами, работающими с данными. В последнее время оно стало настолько распространенным, что просочилось из узкоспециализированной сферы в общий лексикон. Многие уже слышали разговоры о Big Data, но сходу не так просто разобраться, что это такое и где оно требуется. Термин «Большие данные» сейчас не обозначает что-то конкретное. Как правило, так принято определять целое направление инструментов и алгоритмов, предназначенных для работы с большими массивами упорядоченных и разрозненных данных в условиях постоянного роста их объема и изменения структура. Это сложная задача, и достаточно разносторонняя, поэтому не существует какого-то одного универсального инструмента для ее решения. Практические примеры использования «больших данных» Чтобы лучше понять, что такое Большие Данные, и где ее методы Далее …

Hadoop: практичное применение инструмента

hadoop

Hadoop – специализированный пакет алгоритмов и инструментов, предназначенных для массированной обработки информации. Его задача – работа с крупнейшими массивами данных, упорядоченных и неупорядоченных. Инструмент настолько эффективен, что достаточно широко используется в ряде алгоритмов поисковых систем и при построении ресурсоемких сайтов. Однако, Hadoop можно использовать и в гораздо более практичных и приближенных к повседневным задачам целях. Например, внедрить систему в своей компании для решения различных задач, связанных со структурированием и анализом имеющихся и поступающих данных. Суть Hadoop заключается в том, что этот пакет предполагает работу не на одном устройстве, а на целом кластере, каждая система в котором получает одну и ту же задачу. В результате объединения усилий кластера решение находится максимально быстро. Задачи, которые можно решить с помощью Hadoop Вариантов корпоративного Далее …

Без рубрики

KSQL — для тех кто любит Kafka и не знает Java

KSQL — это движок SQL с открытым исходным кодом для Apache Kafka. Он обеспечивает простой, но мощный интерактивный SQL интерфейс для потоковой обработки на Kafka, без необходимости писать код на языке программирования, таком как Java или Python.  SELECT * FROM payments-kafka-stream WHERE fraud_probability > 0.8                                                                    KSQL поддерживает широкий спектр потоковых операций, включая фильтрацию данных, преобразования, агрегации, соединения, оконные операции и сессии. Он является масштабируемым, отказоустойчивым и позволяет в режиме реального времени удовлетворить потребности бизнеса в данных.  Теперь вы можете задаться вопросом, для чего я могу использовать KSQL? Вот несколько Далее …

Новый курс по безопасности озера данных Hadoop

Знакомство с расширенными возможностями обеспечения безопасности озера данных под управлением Apache Ambari и Apache Ranger дистрибутива HortonWorks или Arenadata Hadoop.  На протяжении 3 дней практического обучения вы рассмотрите вопросы  установки и настройки эшелонированной защиты- безопасности  озера данных (Data Lake security) Hadoop под управлением дистрибутива Hadoop компании HortonWorks с использованием протоколов безопасности Kerberos, интеграция с  Active Directory или FreeIPA с поддержкой механизмов авторизации и аудита событий безопасности Apache Ranger, настройка защищенного периметра сети с поддержкой Single-Sign-On средствами Apache Knox Gateway.  Политики ограничения доступа Apache Ranger на уровне строк, колонок и  значений  с использованием Apache Atlas.  Использование технологии машинного обучения для распознавания инцидентов безопасности с использованием Apache Metron. Настройка опций безопасности для компонентов экосистемы Hadoop: Kafka, HDFS, YARN, Apache Spark, Hive, HBase, MapReduce.  Подробная программа курса на сайте «Безопасность озера данных Hadoop (HortonWorks HDP)» Комплексное предложение  по скидке на любые два курса Далее …

9-я Международная промышленная выставка «Иннопром-2018»

Правительство Свердловской области на конкурсной основе выбрало совместные решения консорциума iDVP и компании «Корус АКС» для демонстрации развития проекта «Умный регион» в сфере «Образование». В рамках экспозиции «Корус АКС» на стенде Свердловской области будут представлены успешно реализованные проекты и прототипы в области продвинутой аналитики и 3D-визуализации больших данных: новая перспективная разработка для сферы образования – приложение, визуализирующее комплекс показателей учебных заведений на интерактивной карте Москвы. Приложение позволяет в режиме онлайн контролировать показатели успеваемости (посещаемость, оценки и т.д.), получать достоверную информацию об организации питания, процессе создания учебных материалов, отслеживать статусы заявлений, а также активность учащихся и их родителей в системе; центр мониторинга ЕМИАС – инструмент, который в режиме реального времени ежедневно отслеживает и наглядно демонстрирует наиболее важные данные о работе амбулаторно-поликлинического звена столичного Далее …

Новые возможности развития в условиях четвертой промышленной революции

Послание Президента Республики Казахстан Н. Назарбаева народу Казахстана. 10 января 2018 г. (тезисы) Уважаемые казахстанцы! Сегодня мир вступает в эпоху Четвертой промышленной революции, эру глубоких и стремительных изменений: технологических, экономических и социальных. … Принята комплексная программа «Цифровой Казахстан». … Данное Послание определяет, что нам предстоит сделать для успешной навигации и адаптации в новом мире – мире Четвертой промышленной революции. Эпоха «нефтяного изобилия» практически подходит к концу. Стране требуется новое качество развития. Глобальные тренды показывают, что оно должно основываться в первую очередь на широком внедрении элементов Четвертой промышленной революции. Это несет в себе как вызовы, так и возможности. Уверен, у Казахстана есть все необходимое для вхождения в число лидеров нового мира. Для этого нужно сконцентрироваться на решении следующих задач. ПЕРВОЕ. Индустриализация должна стать флагманом внедрения новых технологий. В то же время индустриализация должна стать более инновационной, используя все Далее …