Schița de curs

Secțiunea 1: Data Management în HDFS

  • Diverse formate de date (JSON / Avro / Parquet)
  • Scheme de compresie
  • Mascarea datelor
  • Laboratoare : Analizarea diferitelor formate de date; activarea compresiei

Secțiunea 2: Pig avansat

  • Funcții definite de utilizator
  • Introducere în bibliotecile Pig (ElephantBird / Data-Fu)
  • Încărcarea datelor structurate complexe cu ajutorul Pig
  • Reglarea Pig
  • Laboratoare : scripting pig avansat, analizarea tipurilor complexe de date

Secțiunea 3 : Advanced Hive

  • Funcții definite de utilizator
  • Tabele comprimate
  • Hive Reglarea performanței
  • Laboratoare : crearea tabelelor comprimate, evaluarea formatelor și configurației tabelelor

Secțiunea 4 : HBase avansat

  • Modelarea avansată a schemei
  • Compresie
  • Intrări masive de date
  • Comparație între tabele largi și tabele înalte
  • HBase și Pig
  • HBase și Hive
  • Reglarea performanței HBase
  • Laboratoare : tuning HBase; accesarea datelor HBase din Pig & Hive; utilizarea Phoenix pentru modelarea datelor

Cerințe

  • să fie familiarizat cu Java limbaj de programare (majoritatea exercițiilor de programare sunt în java)
  • să se simtă confortabil în mediul Linux (să fie capabil să navigheze pe linia de comandă Linux, să editeze fișiere folosind vi / nano)
  • cunoștințe practice de Hadoop.

Mediul de laborator

Zero Install: Nu este nevoie să instalați software-ul hadoop pe mașinile studenților! Un cluster hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty )
  • un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox
 21 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite