Главная » Курсы » Обработка и анализ данных » SQL для анализа данных

Big Data SQL: Hive

О курсе

от

Big Data SQL: Hive

Номер курса: BD_Hive
Вендор: Авторские и иные курсы
Профессия: Программист Разработчик баз данных Бизнес-аналитик Аналитик данных

Наш мир все больше и больше заполняется огромными массивами данных, хранящих информацию абсолютно о всем. Развитие искусственного интеллекта, справляющегося с управлением и анализом больших данных делает профессию аналитика Big data востребованной. Этот курс позволит вам войти в раздел элитных, востребованных специалистов.

Расписание и цены

Заказать курс

Этот курс набирает желающих участников. Отправьте заявку на участие, а когда наберётся достаточное количество, мы с вами свяжемся.

Заказать обучение

ФИО

E-mail

Контактный телефон

Город

Особые пожелания

Отправить заявку

Программа курса

Лекция 0. Введение в Hadoop

• Что такое Hadoop и из каких компонентов состоит.
• Краткий обзор HDFS
• Концепция Map/Reduce
• Краткий обзор Yarn
• Необходимость использовать простые методы доступа к данным.

Лекция 1. Введение в Hive. Обзор возможностей.
• Краткая справка по смежным технологиям (Pig|/Impala/Phoenix)
• Общая архитектура (HiveMetastore/HiveServer)
• Два типа Hive серверов. • Сравнительный обзор языка запросов HiveQL
• Создание таблицы
◦ Как создать таблицу и что за параметры можно указать
◦ Типы таблиц (external/managed)
• Просмотр "словаря данных"
• Запросы Select
◦ Group By
◦ Sort/Distribute/Cluster/Order By
◦ Joins
◦ Join Optimization
◦ Union
◦ Lateral View
◦ Transform and Map-Reduce Scripts
◦ Operators and User-Defined Functions (UDFs)
◦ XPath-specific Functions
• Запросы DML ◦ Insert/Update
◦ ACID транзакции

Лекция 2. Форматы файлов.
• Исторические (Sequence/RC)
• "Текстовые" (CSV/TSV/JSON)
• Сейчас используемые и поддерживаемые форматы сжатия.
◦ Parquet
◦ ORC
◦ Avro
• HowTo – практическая демонстрация
◦ Как проверить формат файла?
◦ Как посмотреть набор колонок в файле?
◦ Как при помощи Hive перекодировать из одного формата в другой?
◦ Как загрузить данные (load data inpath, CTAS, msck) ?
• Обзор методов загрузки данных (что успеем)

Лекция 3. Продвинутый Hive.
• Секционирование таблиц.
• Различные «нестандартные» SerDe
• Различные движки исполнения.
◦ MR
◦ Spark
◦ Tez
◦ LLAP

Лекция 4. Обзор вариантов доступа к данным .
• Spark/SparkSQL и связь с Hive
• Ноутбуки которые могу быть использованы для работы с Hive
• Работа с использованием DBeaver или любого другого писнтрумента который поддерживает JDBC

Преподаватели

Преподаватель Андрей Деканович

Документы об окончании