Программа курса
Лекция 0. Введение в Hadoop
• Что такое Hadoop и из каких компонентов состоит.
• Краткий обзор HDFS
• Концепция Map/Reduce
• Краткий обзор Yarn
• Необходимость использовать простые методы доступа к данным.
Лекция 1. Введение в Hive. Обзор возможностей.
• Краткая справка по смежным технологиям (Pig|/Impala/Phoenix)
• Общая архитектура (HiveMetastore/HiveServer)
• Два типа Hive серверов. • Сравнительный обзор языка запросов HiveQL
• Создание таблицы
◦ Как создать таблицу и что за параметры можно указать
◦ Типы таблиц (external/managed)
• Просмотр "словаря данных"
• Запросы Select
◦ Group By
◦ Sort/Distribute/Cluster/Order By
◦ Joins
◦ Join Optimization
◦ Union
◦ Lateral View
◦ Transform and Map-Reduce Scripts
◦ Operators and User-Defined Functions (UDFs)
◦ XPath-specific Functions
• Запросы DML ◦ Insert/Update
◦ ACID транзакции
Лекция 2. Форматы файлов.
• Исторические (Sequence/RC)
• "Текстовые" (CSV/TSV/JSON)
• Сейчас используемые и поддерживаемые форматы сжатия.
◦ Parquet
◦ ORC
◦ Avro
• HowTo – практическая демонстрация
◦ Как проверить формат файла?
◦ Как посмотреть набор колонок в файле?
◦ Как при помощи Hive перекодировать из одного формата в другой?
◦ Как загрузить данные (load data inpath, CTAS, msck) ?
• Обзор методов загрузки данных (что успеем)
Лекция 3. Продвинутый Hive.
• Секционирование таблиц.
• Различные «нестандартные» SerDe
• Различные движки исполнения.
◦ MR
◦ Spark
◦ Tez
◦ LLAP
Лекция 4. Обзор вариантов доступа к данным .
• Spark/SparkSQL и связь с Hive
• Ноутбуки которые могу быть использованы для работы с Hive
• Работа с использованием DBeaver или любого другого писнтрумента который поддерживает JDBC