Samza

Apache Samza, Апач Самза, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza (Самза) – это асинхронная вычислительная Big Data среда с открытым исходным кодом для распределенных потоковых вычислений практически в реальном времени, разработанная в 2013 году в соцсети LinkedIn на языках Scala и Java. Проектом верхнего уровня Apache Software Foundation Самза стала в 2014 году [1]. Samza vs Apache Kafka Streams: сходства и различия Apache Samza часто сравнивают с Kafka Streams. На самом деле, эти продукты очень похожи между собой [2]: оба решения созданы одними и теми же разработчиками, которые внедрили Samza в LinkedIn, а затем основали компанию Confluent, где и была написана Kafka Streams; обе технологии тесно связаны с Kafka – они получают оттуда необработанные данные, производят вычисления и затем возвращают обработанные данные обратно; низкая задержка обработки данных (low Далее …

Scikit-learn

Scikit—learn (Sklearn) – это библиотека с  реализацией целого ряда алгоритмов для обучения с учителем (Supervised Learning) и обучения без учителя (Unsupervised Learning) через интерфейс для языка программирования Python. Scikit-learn построена на основе SciPy (Scientific Python). Кроме того Sklearn имеет следующие зависимости: NumPy: расширение языка Python, добавляющее поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых математических функций для операций с этими массивами; SciPy: открытая библиотека высококачественных научных инструментов для языка программирования Python; Matplotlib: библиотека на языке программирования Python для визуализации данных 2D и 3D графики; IPython: интерактивная оболочка для языка программирования Python, которая предоставляет расширенную интроспекцию, дополнительный командный синтаксис, подсветку кода и автоматическое дополнение; Sympy: библиотека для символьных вычислений; Pandas: различные структуры данных и анализ.   Pandas – высокоуровневая библиотека Далее …

Segmentation image

Segmentation image – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении класса (раскраска) каждого пикселя на цифровом изображении или на каждом кадре видеопотока.     Пример кода вы можете посмотреть на GitHub MachineLearningIsEasy        

SEMMA

SEMMA, Data Mining, обработка данных, CRISP-DM, анализ данных, стандарты ИАД

SEMMA (аббревиатура от английских слов Sample, Explore, Modify, Model и Assess) – общая методология и последовательность шагов интеллектуального анализа данных (Data Mining), предложенная американской компанией SAS, одним из крупнейших производителей программного обеспечения для статистики и бизнес-аналитики, для своих продуктов [1].  Зачем нужен стандарт SEMMA В отличие от другого широко используемого стандарта Data Mining, CRISP-DM, SEMMA фокусируется на задачах моделирования, не затрагивая бизнес-аспекты. Тем не менее, этот стандарт позиционируется как унифицированный межотраслевой подход к итеративному процессу интеллектуального анализа данных [1]. Эта методология не навязывает каких-либо жестких правил, однако, используя ее разработчик располагает научными методами построения концепции проекта, его реализации и оценки результатов проектирования [2].Подход SEMMA сочетает структурированность процесса Data Mining и логическую организацию инструментальных средств для поддержки каждой операции обработки и анализу Далее …

Sequence

файл последовательностей, формат Sequence File, Big Data, Большие данные, архитектура, обработка данных, Hadoop

Sequence File (файл последовательностей) – это двоичный формат для хранения Big Data в виде сериализованных пар ключ/значение в экосистеме Apache Hadoop, позволяющий разбивать файл на участки (порции) при сжатии. Это обеспечивает параллелизм при выполнении задач MapReduce, т.к. разные порции одного файла могут быть распакованы и использованы независимо друг от друга [1]. Наряду с Apache Avro, Sequence File считается линейно-ориентированным (строковым) форматом Big Data, в отличие от колоночных (столбцовых) форматов (RCFile, Apache ORC и Parquet). Структура Sequence-файла Sequence File состоит из заголовка, за которым следует одна или несколько записей. Заголовок файла последовательности (Sequence File Header) имеет следующую структуру: первые 3 байта заголовка Sequence-файла занимают символы «SEQ», что идентифицирует файл последовательности. Далее следует 1 байт, представляющий фактический номер версии (например, SEQ4 или Далее …

Spark

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop [1]. История появления Спарк и сравнение с Apache Hadoop Основным автором Apache Spark считается Матей Захария (Matei Zaharia), румынско-канадский учёный в области информатики. Он начал работу над проектом в 2009 году, будучи аспирантом Университета Калифорнии в Беркли. В 2010 году проект опубликован под лицензией BSD, в 2013 году передан фонду Apache Software Foundation и переведён на лицензию Apache 2.0, а в 2014 году принят в число проектов верхнего уровня Apache. Изначально Спарк написан на Scala, затем была добавлена существенная часть кода на Java, что позволяет разрабатывать распределенные приложения непосредственно на этом языке программирования [1]. Далее …

Spark SQL

Spark SQL — это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса — dataframe, в обратном направлении — регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL запрос). Технически, Spark SQL запросы, компилируются в операции над RDD (Resilient Distributed Dataset — абстракция нижнего уровня в Apache Spark). В Spark SQL реализован ANSI стандарт языка SQL, при этом поддерживаются не только запросы (так называемые  DML операции), но и операции над таблицами и view (DDL операции). Созданные с помощью Spark SQL таблицы могут быть доступны в других системах управления данными, например, в Apache Hive. Spark SQL — это независимая Далее …

Storm

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) – это Big Data фреймворк с открытым исходным кодом для распределенных потоковых вычислений в реальном времени, разработанный на языке программирования Clojure. Изначально созданный Натаном Марцем и командой из BackType, этот проект был открыт с помощью исходного кода, приобретенного Twitter. Первый релиз состоялся 17 сентября 2011 года, а с сентября 2014 Storm стал проектом верхнего уровня Apache Software Foundation [1]. Как устроен Apache Storm: архитектура и принцип работы Кластер Apache Storm, работающий по принципу master-slave, состоит из следующих компонентов [1]: Ведущий узел (master) с запущенной системной службой (демоном) Nimbus, который назначает задачи машинам и отслеживает их производительность. Рабочие узлы (worker nodes), на каждом из которых запущен демон Supervisor (супервизор), который назначает задачи (task) другим рабочим узлам и Далее …