Чем Apache Zeppelin лучше Jupyter Notebook для интерактивной аналитики Big Data: 4 ключевых преимущества

Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security, Hadoop, PySpark, Arenadata, Apache Zeppelin, Jupyter Notebook

В этой статье мы рассмотрим, что такое Apache Zeppelin, как он полезен для интерактивной аналитики и визуализации больших данных (Big Data), а также чем этот инструмент отличается от популярного среди Data Scientist’ов и Python-разработчиков Jupyter Notebook. Что такое Apache Zeppelin и чем он полезен Data Scientist’у Начнем с определения: Apache Zeppelin – это интерактивный веб-блокнот (или «ноутбук» от notebook) с открытым исходным кодом, который поддерживает практически все этапы работы с данными в Data Science, от извлечения до визуализации, в т.ч. интерактивный анализ и совместное использование документов. Он интегрирован с Apache Spark, Flink, Hadoop, множеством реляционных и NoSQL-СУБД (Cassandra, HBase, Hive, PostgreSQL, Elasticsearch, Google Big Query, Mysql, MariaDB, Redshift), а также поддерживает различные языки программирования, популярные в области Big Data: Python, Далее …

Что под капотом Apache Livy: принципы и особенности работы со Spark

AirFlow, Livy, Python, Spark, архитектура, обработка данных, Big Data, большие данные, безопасность, security

Вчера мы рассказывали про особенности совместного использования Apache Spark с Airflow и достоинства подключения Apache Livy к этой комбинации популярных Big Data фреймворков. Сегодня рассмотрим подробнее, как работает Apache Livy, а также за счет чего этот гибкий API обеспечивает удобство работы с Python-кодом и общие Spark Context’ы для разных операторов Airflow и не только. Когда вам нужен с Apache Livy: 5 популярных кейсов Прежде всего, отметим типовые сценарии, когда целесообразно использовать Apache Livy при работе со Спарк [1]: необходима единая сессия Spark (session) для нескольких клиентов, которые достаточно компактны и не перегружены сложными настройками; нужно быстро настроить доступ к кластеру Spark; требуется интегрировать Spark в мобильное приложение; необходимо поддерживать работу нестабильного кластера, не изменяя каждый раз его конфигурацию; нужно организовать Далее …

Я знаю, что вы делали прошлым летом и сегодня утром: как государство и бизнес собирают Big Data о каждом из нас

цифровизация, цифровая трансформация, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, искусственный интеллект, security, утечки данных, безопасность

Мы уже писали о преимуществах DaaS-похода, когда облачные провайдеры предоставляют данные как услугу, включая сложную предиктивную аналитику с использованием алгоритмов машинного обучения. Это позволяет быстро и удобно воспользоваться технологиями Big Data без существенных инвестиций в ИТ-инфраструктуру и дорогих специалистов, таких как Data Scientist, инженер и аналитик больших данных. Однако все плюсы достоинства этой бизнес-модели немного меркнут, когда товаром становитесь вы сами. Сегодня мы расскажем, как большой брат проникает в личную жизнь россиян еще больше, а понятие приватности стремительно исчезает, уступая место тотальному контролю со стороны государства и крупных корпораций. Телефон и твой номер тянут меня, как магнит или DaaS-сервисы от мобильных операторов Пока бизнес пытается легализовать для граждан торговлю собственными персональными данными, запуская маркетплейс «Датамания» совместно с отечественным Фондом развития Далее …

Особенности самообслуживаемой аутентификации Apache Kafka на примере Booking.com

Big Data, Большие данные, предиктивная аналитика, обработка данных, Kafka, администрирование, архитектура, Security

Продолжая разбирать доклад Александра Миронова из Booking.com, который был представлен 23 января 2020 года на зимнем Kafka-митапе Avito.Tech, сегодня мы рассмотрим, с какими проблемами столкнулись администраторы Big Data при обеспечении информационной безопасности своих Кафка-кластеров. Читайте в нашей статье про возможные методы аутентификации в Apache Kafka и их практическое использование в самообслуживаемой ИТ-инфраструктуре одной из крупнейших travel-компаний. SASL или mTLS: какой метод аутентификации выбрать для Kafka-кластера Напомним, Apache Kafka поддерживает целый ряд методов аутентификации [1]: SASL (Simple Authentication and Security Layer — простой уровень аутентификации и безопасности), включая следующие вариации: PLAIN (простой механизм передачи паролей открытым тектом), SCRAM (Salted Challenge Response Authentication Mechanism – механизм хранения данных и протокол аутентификации через хэши паролей, которые хранятся в Apache Zookeeper), GSSAPI (Generic Security Services Далее …

7 этических проблем отечественной цифровизации и пути их решения

цифровизация, цифровая трансформация, цифровая экономика, управление, утечки данных, Security, защита информации, Big Data, Machine Learning, искусственный интеллект, большие данные, безопасность, Большие данные, предиктивная аналитика

Вчера мы говорили о том, какие организационные барьеры мешают реализации запланированных проектов национальной программы «Цифровая экономика РФ». Сегодня рассмотрим основные этические риски, которые сдерживают развитие цифровой трансформации в России и разберем некоторые возможности их обхода. Чем страшна цифровизация: 7 ключевых проблем с точки зрения этики 16 января 2020 года Центр подготовки руководителей цифровой трансформации на базе Высшей школы государственного управления РАНХиГС совместно с ВШЭ представил доклад о главных этических проблемах и рисках внедрения цифровых технологий в России цифровыми технологии. Ключевыми проблемами работы с большими данными, методами искусственного интеллекта (ИИ) и интернетом вещей эксперты назвали следующие [1]: инфляция приватных данных, когда бизнес и государство собирает все больше данных о своих пользователях (гражданах) за тот же объем предоставляемых услуг. К примеру, обязательная регистрация на сайтах Далее …

Аналитика больших данных в Elasticsearch: возможности Machine Learning в ELK Stack

Big Data, Большие данные, Elasticsearch, Machine Learning, машинное обучение, Data Lake, NoSQL, предиктивная аналитика

В этой статье рассмотрим несколько примеров по аналитике больших данных в Elasticsearch (ES), а также разберем возможности алгоритмов машинного обучения в ELK Stack. Читайте, как использовать NoSQL-СУБД ES в качестве озера данных для проверки различных бизнес-гипотез с помощью Machine Learning, показывая результаты моделирования в интерфейсе Kibana: практическая аналитика Big Data. Как анализировать Big Data в Elasticsearch: 4 реальных кейса Прежде всего, перечислим несколько бизнес-задач, для решения которых могут использоваться компоненты ELK-стека [1]: анализ поведения пользователей в разных интернет – магазинах – мониторинг и поиск взаимосвязей между различными событиями (клики, покупки, просмотры, лайки, сообщения в чатах и пр.); поиск пользователей с похожими потребностями, например, найти всех клиентов в радиусе 3 км, которые продают детские санки, чтобы сообщить об этом тем, кто Далее …

Как сделать Elasticsearch безопасным: защищаем Big Data от утечек

Big Data, Большие данные, Elasticsearch, security, утечки данных, защита информации, безопасность, администрирование, Docker, Kubernetes

Вчера мы рассказывали про самые известные утечки Big Data с открытых серверов Elasticsearch (ES). Сегодня рассмотрим, как предупредить подобные инциденты и надежно защитить свои большие данные. Читайте в нашей статье про основные security-функции ELK-стека: какую безопасность они обеспечивают и в чем здесь подвох. Несколько cybersecurity-решений для ES под разными лицензиями Чуть больше года назад, 20 мая 2019, компания Elastic сообщила, что базовые функции обеспечения информационной безопасности ELK-стека, будут теперь бесплатными для всех пользователей, а не только тех, кто подписан на коммерческой основе. Под этим имелись ввиду следующие возможности [1]: криптографический протокол транспортного уровня TLS для шифрованной связи; инструментарий для создания и управления пользовательскими записями (file и native-realm); управление доступом пользователей к API и кластеру на основе ролей (RBAC, Role Based Далее …

Такой эластичный, что вся Big Data утекает: 9 крупных инцидентов cybersecurity с Elasticsearch за последние 3 года

Big Data, Большие данные, обработка данных, Elasticsearch, security, утечки данных, защита информации, персональные данные, безопасность

Продолжая разговор про Elastic Stack, сегодня мы рассмотрим проблемы cybersecurity в Elasticsearch: разберем самые известные утечки данных за последнюю пару лет и поговорим, кто и как обнаруживает подобные инциденты. Читайте в нашей статье, какие средства используют «белые хакеры» для поиска уязвимостей в Big Data системах и что общего между Росгвардией и Microsoft. Самые известные утечки данных с Elasticsearch за последние 3 года: 9 крупных кейсов Одним из главных недостатков Elasticsearch (ES) является отсутствие встроенных средств обеспечения информационной безопасности, таких как система авторизации и ограничения прав доступа. После установки движок по умолчанию связывается с портом 9200 на все доступные интерфейсы, что открывает доступ к базе данных [1]. Эта уязвимость хороша известна злоумышленникам и активно ими используется. В частности, с марта 2020 Далее …

Когда цифровизация не в радость: 5 громких скандалов вокруг Big Data и Machine Learning

Big Data, Большие данные, цифровизация, цифровая трансформация, бизнес, защита информации, Security, безопасность, Machine Learning, машинное обучение, утечки данных

Цифровизация не всегда приносит только положительные результаты: увеличение прибыли, сокращение расходов и прочие бонусы оптимизации бизнеса. Большие данные – это большая ответственность, с которой справится не каждый. В этой статье мы собрали 5 самых ярких событий ИТ-мира за последнюю пару лет, связанных с большими данными (Big Data) и машинным обучением (Machine Learning), которые вызвали неоднозначную реакцию и даже осуждение общественности. Вред от искусственного интеллекта или когда машинное обучение (не)виновато В декабре 2019 года автомобильная компания Mazda отозвала сообщила о дефекте в интеллектуальной тормозной системе своих 35 390 машин 2019 и 2020 модельного года, отозвав несколько десятков тысяч автомобилей. Из-за программных ошибок авто Mazda3 четвертого поколения может обнаружить несуществующий объект на своем пути и автоматически начать экстренное торможение во время вождения. Такое Далее …

Защитить всех и каждого: 5 методов cybersecyrity для биометрии в Big Data системах

Big Data, Большие данные, предиктивная аналитика, бизнес-процессы, цифровизация, цифровая трансформация, бизнес, защита информации, Security, безопасность

Вчера мы писали, что cybersecurity биометрии пока не слишком надежна: обмануть можно как дактилоскопический сканер на смартфоне, так и крупную систему больших данных (Big Data). Сегодня поговорим о мерах обеспечения информационной безопасности биометрических данных: многофакторной аутентификации, защите цифровых шаблонов и кратной верификации. А также расскажем, когда государственная цифровизация в России намерена заменить бумажные паспорта пластиковыми карточками с биометрическими чипами. Что такое биометрический шаблон и зачем он нужен в Big Data системе Напомним, что шаблон биометрических персональных данных (БПД), который генерируется при регистрации пользователя в системе биометрии, по сути, является паролем для входа в среду. Он создается при регистрации в системе, а при последующем использовании текущие БПД сравниваются с заранее сохраненным образцом. Поэтому цифровой шаблон должен быть защищен так, чтобы его Далее …