Быстрее, гибче, самостоятельней: 3 принципа Agile в Big Data системах

Большие данные, Big Data, Agile, цифровая трансформация, цифровая экономика, цифровизация, бизнес-процессы, банки, нефтегазовая отрасль

Пока Agile (эджайл) из методологии разработки программного обеспечения становится настоящей философией ведения бизнеса, мы разберем, какие именно принципы этого подхода используются в каждой системе больших данных и почему любой Big Data проект успешно реализуется с помощью этих идей. Что такое Agile: краткий ликбез Изначально термин Agile относился к подходам и практикам гибкой разработки программного обеспечения, нацеленной на сокращение сроков вывода на рынок готового продукта и минимизацию рисков с помощью сведения разработки к серии коротких циклов (итераций). Ключевые идеи Agile, изложенные в Agile Manifesto, сосредоточены на командном взаимодействии, скорости реагирования, готовности к изменениям и ценности работающего продукта [1]. Такое видение отражает требования современного бизнеса к организации работы и, поскольку основные принципы Agile не связаны ИТ-спецификой, подход становится популярной практикой выстраивания процессов Далее …

Защити своего слона: 3 инструмента безопасности кластера Hadoop

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, безопасность, security, защита информации

Чтобы сохранить большие данные от утечек, чиновники придумывают различные законы, а разработчики чинят уязвимости в Big Data системах. Продолжая разговор про информационную безопасность больших данных, сегодня мы подготовили для вас статью про технические средства защиты кластера Apache Hadoop. Возможные угрозы для кластера Big Data и средства их предотвращения В реальности экосистема больших данных существует не в информационном вакууме, а в корпоративной ИТ-инфраструктуре, в рамках которой администратор Big Data должен обеспечить безопасное и эффективное использование кластера. С этой позиции можно выделить следующие направления защиты кластера Apache Hadoop: предотвращение атак и несанкционированного доступа к Big Data извне – организация защищенного периметра; безопасное использование больших данных внутренними клиентами (пользователями и корпоративными информационными системами) – обеспечение эффективной и безопасной интеграции; комплексный мониторинг и администрирование Далее …

Насколько безопасен ваш Hadoop: главные уязвимости экосистемы Big Data

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, безопасность, security, защита

Мы уже рассказывали о наиболее крупных утечках персональных данных за последние несколько лет и о том, как эту проблему пытаются решить разные страны на законодательном уровне. Сегодня, продолжая тему информационной безопасности Big Data, поговорим об основных уязвимостях главного инфраструктурного решения для больших данных — Apache Hadoop. Некоторые инциденты нарушения безопасности Hadoop Осень 2018 года оказалась богатой на урожай обнаруженных и активно используемых злоумышленниками уязвимостей Apache Hadoop. В частности, в ноябре 2018 вредоносный ботнет Mirai использовал сервера хадуп в качестве средства своего распространения. Для этого эксплуатировалась уязвимость YARN, одного из основных модулей Hadoop, которая позволяет осуществить внедрение команд и выполнить произвольные команды shell [1]. Месяцем ранее эта же уязвимость использовалась ботнетом DemonBot для осуществления массивных DDoS-атак. При этом атакующим удалось получить Далее …

Большие данные – большие потери: крупнейшие утечки Big Data за 3 года

Большие данные, Big Data, безопасность, security, персональные данные, утечки данных, защита информации

Среди угроз несанкционированного использования Big Data наиболее опасны утечки персональных данных. Когда сведения о личностях сотен тысяч людей по всему миру в очередной раз «утекли» в открытый доступ, компании снова задумываются о защите информации. В этой статье мы расскажем о наиболее крупных утечках персональных данных за последние несколько лет, а также о том, как законы различных стран пытаются предупредить нелегитимное использование Big Data и насколько хорошо у них это получается (спойлер: пока не очень). Большие данные – большие потери Среди наиболее известных утечек информации за последние несколько лет стоит отметить следующие: в мае 2019 года персональные данные 900 тысяч клиентов 3-х крупных российских банков («ОТП Банк», «Альфа-банк» и «Хоум кредит») оказались в открытом доступе: ФИО, телефоны, паспортные данные и сведения о месте Далее …

Умная недвижимость: Big Data, Machine Learning и IoT в девелопменте

Big Data, Большие данные, машинное обучение, Machine Learning, бизнес, интернет вещей, Internet Of Things, Wi-Fi, IoT, город

Цифровизация различных прикладных отраслей продолжается — сегодня мы нашли для вас интересные кейсы, как большие данные, машинное обучение и интернет вещей используется в жилой и коммерческой недвижимости. Чем Big Data, Machine Learning и Internet Of Things (IoT) полезны строителям и риелторам, и каким образом внедрение этих технологий поможет потребителям. Big Data для прогнозирования спроса на недвижимость Собрав данные о взаимодействии пользователей с сайтами агентств недвижимости и строительных компаний, результаты соцопросов, статистику о городском населении, экономические обзоры, планы развития городских территорий и транспортной системы, можно предсказать потребности клиентов в различных видах недвижимости на будущем [1]. Например, чтобы определить в каких районах Москвы будет востребована жилая недвижимость через 10–20 лет, специалисты компании Smartis с помощью анализа больших данных прогнозируют наибольший спрос в Химках, Долгопрудном, Люберцах и Бутово. Далее …

Эко-Big Data в большом городе: как технологии делают мегаполис чище

Big Data, Большие данные, машинное обучение, Machine Learning, город, IoT, Internet Of Things, интернет вещей

Цифровизация возможна не только на предприятиях. Цифровая трансформация настигает даже города, чтобы сделать их более удобными для жителей и менее вредными для планеты. Сегодня мы подготовили для вас 8 интересных примеров по 4 разным направлениям об использовании больших данных (Big Data), машинного обучения (Machine Learning) и интернета вещей (Internet of Things) в улучшении городской инфраструктуры. Читайте в нашем материале, как оперативно следить за мусорными баками, состоянием лесопарков, велотранспортом и чистотой воздуха с помощью больших данных, машинного обучения и интернета вещей. Интернет вещей для управления мусором В Барселоне, которая считается одним из наиболее продвинутых мегаполисов в плане технического оснащения и удобства городской инфраструктуры, использование технологий Big Data и Internet Of Things в мусорных контейнерах существенно улучшило экологическую обстановку. Специальные ультразвуковые сенсоры, Далее …

Какой Hadoop лучше: сравнение 4 самых популярных дистрибутивов

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура

Проанализировав предложения крупных PaaS/IaaS-провайдеров по развертыванию облачного кластера, сегодня мы сравним 4 наиболее популярных дистрибутива Hadoop от компаний Cloudera, HortonWorks, MapR и ArenaData, которые используются при развертывании локальной инфраструктуры для проектов Big Data. Как мы уже отмечали, эти дистрибутивы распространяются бесплатно, но поддерживаются на коммерческой основе. Некоторые отличия популярных дистрибутивов Hadoop Несмотря на общую прикладную направленность, каждый из этих продуктов обладает своими уникальными особенностями: корпоративное решение ClouderaCDH включает собственную подсистему управления кластером Cloudera Manager и характеризуется высокой стоимостью технического сопровождения (около $4 тысяч в год за узел кластера), поэтому позволить ее себе могут только очень крупные компании. Cloudera Manager позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки Далее …

Облачный слон для больших данных: обзор 6 популярных Hadoop-решений

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, облака

Мы уже рассказывали про общие достоинства и недостатки облачных Hadoop-кластеров для проектов Big Data и сравнивали локальные дистрибутивы. В продолжение этой темы, в сегодняшней статье мы подготовили для вас сравнительный обзор наиболее популярных PaaS/IaaS-решений от самых крупных иностранных (Amazon, Microsoft, Google, IBM) и отечественных (Яндекс и Mail.ru) провайдеров [1]. Сравнение облачных кластеров Hadoop от популярных PaaS-провайдеров Для сравнения выбраны следующие характеристики: состав экосистемы; средства обеспечения надежности и безопасности; примерная стоимость решения – отметим, что данная метрика является ориентировочной и зависит от конкретной конфигурации кластера, а также потребляемых ресурсов. PaaS-решение Состав экосистемы Надежность и безопасность Стоимость Amazon EMR (Amazon), интеграция со всеми веб-сервисами Amazon   Apache Hadoop 2.x, Hive, Pig, HBase, Impala, Spark, Tez, Oozie, Flink, Zeppelin, Hue, Presto, HCatalog, Machout, MXNet, Sqoop, Далее …

Большие слоны в облаках: плюсы и минусы облачных Hadoop-решений

Продолжая опровергать мифы о Hadoop, сегодня мы расскажем о том, как и где создать облачный кластер для Big Data и почему это выгодно. Концепция облачных вычислений стала популярна с 2006 года благодаря компании Amazon и постепенно распространилась на использование внешних платформ и инфраструктуры как сервисов (Platform as a Service, PaaS, и Infrastructure as a Service, IaaS) [1]. Теперь совсем не обязательно разворачивать мощный компьютерный кластер у себя на предприятии – гораздо удобнее, быстрее и дешевле обойдется аренда вычислительных мощностей и дискового пространства в специализированных центрах обработки данных (ЦОД), что весьма актуально для проектов Big Data. В этом материале мы собрали для вас общие достоинства и недостатки популярных облачных решений для Big Data на основе Hadoop от самых крупных PaaS-провайдеров: Amazon, Далее …

Как реплицировать, считать и удалить файлы в HDFS: подробности файловых операций

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура, HDFS

Мы уже рассказывали, как большие данные (Big Data) сохраняются на диск. Сегодня поговорим о других файловых операциях в HDFS: репликации, чтении и удалении данных. За все файловые операции в Hadoop Distributed File System отвечает центральная точка кластера – сервер имен NameNode. Сами операции с конкретными файлами выполняются на локальном узле данных DataNode, где эти файлы находятся [1]. Что такое репликация данных и зачем она нужна Репликация данных в HDFS – это процесс синхронизации содержимого нескольких копий файлового блока, когда его содержимое с одного DataNode копируется на другие узлы данных, чтобы предотвратить потерю данных в случае сбоя какого-либо хранилища. По умолчанию все HDFS-блоки реплицируются 3 раза, если клиентом (пользователем или приложением) не задано другое значение коэффициента репликации. С целью повышения надежности для хранения Далее …