Schița de curs
Secțiunea 1: Data Management în HDFS
- Diverse formate de date (JSON / Avro / Parquet)
- Scheme de compresie
- Mascarea datelor
- Laboratoare : Analizarea diferitelor formate de date; activarea compresiei
Secțiunea 2: Pig avansat
- Funcții definite de utilizator
- Introducere în bibliotecile Pig (ElephantBird / Data-Fu)
- Încărcarea datelor structurate complexe cu ajutorul Pig
- Reglarea Pig
- Laboratoare : scripting pig avansat, analizarea tipurilor complexe de date
Secțiunea 3 : Advanced Hive
- Funcții definite de utilizator
- Tabele comprimate
- Hive Reglarea performanței
- Laboratoare : crearea tabelelor comprimate, evaluarea formatelor și configurației tabelelor
Secțiunea 4 : HBase avansat
- Modelarea avansată a schemei
- Compresie
- Intrări masive de date
- Comparație între tabele largi și tabele înalte
- HBase și Pig
- HBase și Hive
- Reglarea performanței HBase
- Laboratoare : tuning HBase; accesarea datelor HBase din Pig & Hive; utilizarea Phoenix pentru modelarea datelor
Cerințe
- să fie familiarizat cu Java limbaj de programare (majoritatea exercițiilor de programare sunt în java)
- să se simtă confortabil în mediul Linux (să fie capabil să navigheze pe linia de comandă Linux, să editeze fișiere folosind vi / nano)
- cunoștințe practice de Hadoop.
Mediul de laborator
Zero Install: Nu este nevoie să instalați software-ul hadoop pe mașinile studenților! Un cluster hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty )
- un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox
Mărturii (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curs - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curs - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Curs - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay