Курсы Сибинфоцентра
Ваша корзина пуста
Сумма: 0 руб.
О курсе

Big Data SQL: Hive

Наш мир все больше и больше заполняется огромными массивами данных, хранящих информацию абсолютно о всем. Развитие искусственного интеллекта, справляющегося с управлением и анализом больших данных делает профессию аналитика Big data востребованной. Этот курс позволит вам войти в раздел элитных, востребованных специалистов.
Расписание и цены
Этот курс набирает желающих участников. Отправьте заявку на участие, а когда наберётся достаточное количество, мы с вами свяжемся.
Заказать обучение
Программа курса

Программа курса

Лекция 0. Введение в Hadoop

• Что такое Hadoop и из каких компонентов состоит.
• Краткий обзор HDFS
• Концепция Map/Reduce
• Краткий обзор Yarn
• Необходимость использовать простые методы доступа к данным.

Лекция 1. Введение в Hive. Обзор возможностей.
• Краткая справка по смежным технологиям (Pig|/Impala/Phoenix)
• Общая архитектура (HiveMetastore/HiveServer)
• Два типа Hive серверов. • Сравнительный обзор языка запросов HiveQL
• Создание таблицы
◦ Как создать таблицу и что за параметры можно указать
◦ Типы таблиц (external/managed)
• Просмотр "словаря данных"
• Запросы Select
◦ Group By
◦ Sort/Distribute/Cluster/Order By
◦ Joins
◦ Join Optimization
◦ Union
◦ Lateral View 
◦ Transform and Map-Reduce Scripts
◦ Operators and User-Defined Functions (UDFs)
◦ XPath-specific Functions
• Запросы DML ◦ Insert/Update
◦ ACID транзакции

Лекция 2. Форматы файлов.
• Исторические (Sequence/RC)
• "Текстовые" (CSV/TSV/JSON)
• Сейчас используемые и поддерживаемые форматы сжатия.
◦ Parquet
◦ ORC
◦ Avro
• HowTo – практическая демонстрация
◦ Как проверить формат файла?
◦ Как посмотреть набор колонок в файле?
◦ Как при помощи Hive перекодировать из одного формата в другой?
◦ Как загрузить данные (load data inpath, CTAS, msck) ?
• Обзор методов загрузки данных (что успеем)

Лекция 3. Продвинутый Hive.
• Секционирование таблиц.
• Различные «нестандартные» SerDe
• Различные движки исполнения.
◦ MR
◦ Spark
◦ Tez
◦ LLAP

Лекция 4. Обзор вариантов доступа к данным .
• Spark/SparkSQL и связь с Hive
• Ноутбуки которые могу быть использованы для работы с Hive
• Работа с использованием DBeaver или любого другого писнтрумента который поддерживает JDBC

Преподаватели
Преподаватель Андрей Деканович
Документы об окончании