Большие данные – большие потери: крупнейшие утечки Big Data за 3 года

Большие данные, Big Data, безопасность, security, персональные данные, утечки данных, защита информации

Среди угроз несанкционированного использования Big Data наиболее опасны утечки персональных данных. Когда сведения о личностях сотен тысяч людей по всему миру в очередной раз «утекли» в открытый доступ, компании снова задумываются о защите информации. В этой статье мы расскажем о наиболее крупных утечках персональных данных за последние несколько лет, а также о том, как законы различных стран пытаются предупредить нелегитимное использование Big Data и насколько хорошо у них это получается (спойлер: пока не очень). Большие данные – большие потери Среди наиболее известных утечек информации за последние несколько лет стоит отметить следующие: в мае 2019 года персональные данные 900 тысяч клиентов 3-х крупных российских банков («ОТП Банк», «Альфа-банк» и «Хоум кредит») оказались в открытом доступе: ФИО, телефоны, паспортные данные и сведения о месте Далее …

Умная недвижимость: Big Data, Machine Learning и IoT в девелопменте

Big Data, Большие данные, машинное обучение, Machine Learning, бизнес, интернет вещей, Internet Of Things, Wi-Fi, IoT, город

Цифровизация различных прикладных отраслей продолжается — сегодня мы нашли для вас интересные кейсы, как большие данные, машинное обучение и интернет вещей используется в жилой и коммерческой недвижимости. Чем Big Data, Machine Learning и Internet Of Things (IoT) полезны строителям и риелторам, и каким образом внедрение этих технологий поможет потребителям. Big Data для прогнозирования спроса на недвижимость Собрав данные о взаимодействии пользователей с сайтами агентств недвижимости и строительных компаний, результаты соцопросов, статистику о городском населении, экономические обзоры, планы развития городских территорий и транспортной системы, можно предсказать потребности клиентов в различных видах недвижимости на будущем [1]. Например, чтобы определить в каких районах Москвы будет востребована жилая недвижимость через 10–20 лет, специалисты компании Smartis с помощью анализа больших данных прогнозируют наибольший спрос в Химках, Долгопрудном, Люберцах и Бутово. Далее …

Эко-Big Data в большом городе: как технологии делают мегаполис чище

Big Data, Большие данные, машинное обучение, Machine Learning, город, IoT, Internet Of Things, интернет вещей

Цифровизация возможна не только на предприятиях. Цифровая трансформация настигает даже города, чтобы сделать их более удобными для жителей и менее вредными для планеты. Сегодня мы подготовили для вас 8 интересных примеров по 4 разным направлениям об использовании больших данных (Big Data), машинного обучения (Machine Learning) и интернета вещей (Internet of Things) в улучшении городской инфраструктуры. Читайте в нашем материале, как оперативно следить за мусорными баками, состоянием лесопарков, велотранспортом и чистотой воздуха с помощью больших данных, машинного обучения и интернета вещей. Интернет вещей для управления мусором В Барселоне, которая считается одним из наиболее продвинутых мегаполисов в плане технического оснащения и удобства городской инфраструктуры, использование технологий Big Data и Internet Of Things в мусорных контейнерах существенно улучшило экологическую обстановку. Специальные ультразвуковые сенсоры, Далее …

Какой Hadoop лучше: сравнение 4 самых популярных дистрибутивов

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура

Проанализировав предложения крупных PaaS/IaaS-провайдеров по развертыванию облачного кластера, сегодня мы сравним 4 наиболее популярных дистрибутива Hadoop от компаний Cloudera, HortonWorks, MapR и ArenaData, которые используются при развертывании локальной инфраструктуры для проектов Big Data. Как мы уже отмечали, эти дистрибутивы распространяются бесплатно, но поддерживаются на коммерческой основе. Некоторые отличия популярных дистрибутивов Hadoop Несмотря на общую прикладную направленность, каждый из этих продуктов обладает своими уникальными особенностями: корпоративное решение ClouderaCDH включает собственную подсистему управления кластером Cloudera Manager и характеризуется высокой стоимостью технического сопровождения (около $4 тысяч в год за узел кластера), поэтому позволить ее себе могут только очень крупные компании. Cloudera Manager позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки Далее …

Облачный слон для больших данных: обзор 6 популярных Hadoop-решений

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, облака

Мы уже рассказывали про общие достоинства и недостатки облачных Hadoop-кластеров для проектов Big Data и сравнивали локальные дистрибутивы. В продолжение этой темы, в сегодняшней статье мы подготовили для вас сравнительный обзор наиболее популярных PaaS/IaaS-решений от самых крупных иностранных (Amazon, Microsoft, Google, IBM) и отечественных (Яндекс и Mail.ru) провайдеров [1]. Сравнение облачных кластеров Hadoop от популярных PaaS-провайдеров Для сравнения выбраны следующие характеристики: состав экосистемы; средства обеспечения надежности и безопасности; примерная стоимость решения – отметим, что данная метрика является ориентировочной и зависит от конкретной конфигурации кластера, а также потребляемых ресурсов. PaaS-решение Состав экосистемы Надежность и безопасность Стоимость Amazon EMR (Amazon), интеграция со всеми веб-сервисами Amazon   Apache Hadoop 2.x, Hive, Pig, HBase, Impala, Spark, Tez, Oozie, Flink, Zeppelin, Hue, Presto, HCatalog, Machout, MXNet, Sqoop, Далее …

Большие слоны в облаках: плюсы и минусы облачных Hadoop-решений

Продолжая опровергать мифы о Hadoop, сегодня мы расскажем о том, как и где создать облачный кластер для Big Data и почему это выгодно. Концепция облачных вычислений стала популярна с 2006 года благодаря компании Amazon и постепенно распространилась на использование внешних платформ и инфраструктуры как сервисов (Platform as a Service, PaaS, и Infrastructure as a Service, IaaS) [1]. Теперь совсем не обязательно разворачивать мощный компьютерный кластер у себя на предприятии – гораздо удобнее, быстрее и дешевле обойдется аренда вычислительных мощностей и дискового пространства в специализированных центрах обработки данных (ЦОД), что весьма актуально для проектов Big Data. В этом материале мы собрали для вас общие достоинства и недостатки популярных облачных решений для Big Data на основе Hadoop от самых крупных PaaS-провайдеров: Amazon, Далее …

Как реплицировать, считать и удалить файлы в HDFS: подробности файловых операций

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, HDFS

Мы уже рассказывали, как большие данные (Big Data) сохраняются на диск. Сегодня поговорим о других файловых операциях в HDFS: репликации, чтении и удалении данных. За все файловые операции в Hadoop Distributed File System отвечает центральная точка кластера – сервер имен NameNode. Сами операции с конкретными файлами выполняются на локальном узле данных DataNode, где эти файлы находятся [1]. Что такое репликация данных и зачем она нужна Репликация данных в HDFS – это процесс синхронизации содержимого нескольких копий файлового блока, когда его содержимое с одного DataNode копируется на другие узлы данных, чтобы предотвратить потерю данных в случае сбоя какого-либо хранилища. По умолчанию все HDFS-блоки реплицируются 3 раза, если клиентом (пользователем или приложением) не задано другое значение коэффициента репликации. С целью повышения надежности для хранения Далее …

Как сохранить большие данные: операция записи файлов Big Data в HDFS

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура

HDFS предназначена для больших данных (Big Data), поэтому размер файлов, которые хранится в ней, существенно выше чем в локальных файловых системах – более 10 GB [1]. Продолжая тему файловых операций и взаимодействия компонентов Hadoop Distributed File System, в этой статье мы расскажем, как осуществляется запись таких больших файлов с учетом блочного расположения информации в HDFS и кластерной архитектуры Hadoop.  Запись данных в HDFS Информация записывается в потоковом режиме, за счет чего достигается высокая пропускная способность. Клиент, осуществляющий запись, кэширует данные во временном локальном файле, пока их объем не достигнет размера одного HDFS-блока (по умолчанию 64 MB). Накопив данные на один блок, клиент отправляет на сервер имен NameNode запрос на создание файла, указав размер блока для создаваемого файла и количество реплик. Сервер Далее …

Как общаются друг с другом компоненты HDFS и почему это так важно для Big Data проектов

кластер, Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура

Благодаря архитектурным особенностям распределенной файловой системы Hadoop, допустимые файловые операции в ней отличаются от возможных действий с файлами на локальных системах. В этой статье мы рассмотрим файловые операции в HDFS и взаимодействие ее компонентов: узлов данных и сервера имен с клиентами — пользователями или приложениями. Файловые операции HDFS В отличие от локальных файловых систем, в HDFS (Hadoop Distributed File System) невозможно изменение (модификация) файла. Файлы в HDFS могут быть записаны лишь однажды, причем одновременно запись в файл осуществляет только один процесс. Поскольку HDFS используется для Big Data, эта файловая система ориентирована на большой размер файлов (>10GB). При этом файлы состоят из блоков, размер которых тоже больше, чем у других файловых систем: >64MB [1]. Итак, в HDFS допустимы только следующие операции с Далее …

Сложно, дорого, универсально: 3 мифа о Hadoop и их опровержения

Большие данные, Big Data, Hadoop, Apache, Cloudera, Hortonworks, администрирование, инфраструктура

Сегодня мы поговорим о заблуждениях насчет базового инфраструктурного понятия хранения и обработки больших данных – экосистеме Hadoop и развеем 3 самых популярных мифа об этой технологии. А также рассмотрим применение Cloudera, Hortonworks, Arenadata, MapR и HDInsight для проектов Big Data и машинного обучения (Machine Learning). Миф №1: Hadoop – это сложно Если настраивать инфраструктуру для Big Data проектов «с нуля», взяв за основу классический дистрибутив проекта Hadoop, развернуть экосистему для больших данных будет довольно трудоемким и длительным процессом, с которым справится не каждый системный администратор. Как правило, чтобы сократить время развертывания и сложность администрирования, используют готовые решения на основе Hadoop: Cloudera, Hortonworks, Arenadata, MapR или HDInsight [1]. Эти продукты уже содержат в себе не только 4 основных модуля хадуп (файловая Далее …