Оптимизация запросов JOIN в Apache HIVE

В последних версиях Apache HIVE пытается внедрить CBO (cost based optimizer) и оптимизация операций JOIN одна из главных его составляющих. Поэтому понимание сценариев  оптимизации применения операций JOINs (объединений) является одним из ключевых факторов настройки производительности HiveQL. Рассмотрим каждый вид объединений на практических примерах и определим их различия: Shuffle Join (Common Join) – общее объединение или объединение в случайном порядке Этот вид объединений используется по умолчанию и включает map и reduce этапы для пофазного выполнения обьединения таблиц. Mapper: считывает таблицы и выводит пары ключ-значение соединения в промежуточный файл. Shuffle: пары ключ-значение сортируются и объединяются для передачи на соответствующий узел  где будет выполнятся фаза Reduce. Reducer: получает отсортированные данные и выполняет объединение (JOIN). Варианты использования: Работает для таблиц любого размера, особенно, когда Далее …

С чего начинать Big Data обучение?

big data обучение

В современных реалиях Big Data обучение и получение соответствующей специализации может стать трамплином для головокружительного карьерного роста. Абсолютно все цифровые процессы генерируют массу данных. Эта информация используется в самых разнообразных целях. Она нужна для анализа, сведения статистики, прогнозирования и решения множества других задач. Поэтому важно делать информационные массивы максимально управляемыми. Это означает, что нужно обеспечить возможность оперативного взаимодействия с большими данными. За последние годы все крупнейшие компании создали тысячи рабочих мест для специалистов в сфере обработки и взаимодействия с Big Data. И этот процесс становится все более массовым. В среднесрочной перспективе как минимум одна подобная должность будет в каждой более-менее крупной организации, поэтому обучение работе с Big Data следует начинать уже сейчас, если не хочется упустить великолепный шанс. Главные направления Далее …

Почему полезно пройти курсы по машинному обучению

курсы по машинному обучению

Если вы работаете с компьютерами и большими массивами информации, курсы по машинному обучению или повышению квалификации вам точно не помешают. Почему? Потому, что это направление стремительно становится популярным и востребованным. Искусственный интеллект из экспериментальной технологии как-то незаметно превратился в повседневный инструмент. Точнее, вот-вот таковым станет. Машинное обучение представляет собой комплекс инструментов, направленных на совершенствование способности компьютера к самостоятельному анализу данных и выполнения с ними определенных операций. Человек, владеющий этими инструментами, сейчас гарантированно превращается в востребованного специалиста. Это совершенно новое направление в IT, которое уже в среднесрочной перспективе станет массовым. Способы анализа данных Научить систему самостоятельно анализировать данные и принимать решения можно двумя способами: По прецедентам. Технология базируется на выявлении в данных разных закономерностей. Основываясь на них искусственный интеллект знает, что Далее …

Представителям каких профессий не помешает пройти курсы по Big Data?

курсы по big data

Big Data – современное развитие науки о данных, появившейся примерно в середине шестидесятых годов прошлого века. Сейчас существует масса профессий, специалисты которых должны разбираться в Больших Данных. Кто-то должен быть экспертом в этой отрасли. Кому-то достаточно просто знать, что это такое. В любом случае, если вы работаете в информационной сфере и видите проводимые по Big Data курсы – записывайтесь. Это может оказаться интересным, и точно окажется очень полезным для карьерного роста. Что такое Big Data? Big Data – набор знаний, инструментов и методов обработки больших информационных массивов. Этим термином сейчас определяется целая область деятельности. Что не удивительно, ведь с большими объемами данных приходится сталкиваться буквально везде. Информационные технологии, биржевая деятельность, маркетинг, мобильная связь и многое другое. Даже работа с архивами Далее …

Что такое «цифровая трансформация»?

цифровая трансформация

Digital transformation или Цифровая трансформация – совокупность процессов по тотальному переходу от традиционных методов осуществления деятельности к максимально возможному внедрению современных Digital-технологий. Это новейший бизнес-тренд, направленный на компьютеризацию, использование общего и специального ПО, эксплуатация возможностей Интернета для повышения конкурентоспособности и роста прибыльности. Может показаться, что компьютеризация и использование различных программных возможностей вполне подпадает под определение автоматизации. Это не совсем корректно, ведь автоматизация – лишь один из аспектов глобальной цифровой трансформации. На самом деле имеется ввиду полный перевод бизнеса на Digital-основу с соответствующим ускорением всех процессов и повышением их эффективности. Интернет – площадка для поиска клиентов с бесконечными возможностями. И если вы желаете ими пользоваться, внедрение Digital transformation в компании становится неизбежным. Зачем это нужно? Пользы от цифровой трансформации очень много, Далее …

Большие данные (Big Data): сферы применения технологии

большие данные

Big Data или Большие Данные – совокупность технологий и инструментов, призванных решить проблему операций с большими информационными массивами. Причем значительно сокращаются проблемы не только с неструктурированными, но и структурированными данными. Проблема обработки крупных и часто хаотичных информационных пакетов зародилась в IT-сфере. С ростом компьютеризации общества и всех сфер его деятельности, данная проблема стала почти всеобщей. Чтобы решить ее, был разработан пакет инструментов, получивший общее название «Большие Данные». Он позволяет структурировать информационные массивы, изменять их в зависимости от необходимости, искать закономерности, осуществлять прогнозирование, находить отдельные данные и категории данных по заданным критериям, а также выполнять многие другие операции. Где применяются технологии Больших Данных? Если у вас есть большой массив информации, быстро и эффективно работать с ней можно только используя инструментарий Big Далее …