Schița de curs

Secțiunea 1: Introducere în Hadoop

  • istoria hadoop, concepte
  • sistem eco
  • distribuții
  • arhitectură de nivel înalt
  • miturile hadoop
  • provocări hadoop
  • hardware / software
  • laborator : prima privire la Hadoop

Secțiunea 2: HDFS

  • Proiectare și arhitectură
  • concepte (scalare orizontală, replicare, localitatea datelor, conștientizarea rack-ului)
  • Demoni : Namenode, Namenode secundar, Nod de date
  • comunicații / bătăi de inimă
  • integritatea datelor
  • calea de citire / scriere
  • Namenode Disponibilitate ridicată (HA), Federație
  • laboratoare : Interacțiunea cu HDFS

Secțiunea 3 : Map Reduce

  • concepte și arhitectură
  • demoni (MRV1) : jobtracker / tasktracker
  • faze : driver, mapper, shuffle/sort, reducer
  • Map Reduce versiunea 1 și versiunea 2 (YARN)
  • Aspecte interne ale Map Reduce
  • Introducere în programul Java Map Reduce
  • Laboratoare : Rularea unui exemplu de program MapReduce

Secțiunea 4 : Pig

  • pig vs java map reduce
  • fluxul de lucru pig
  • limbajul latin pig
  • ETL cu Pig
  • Transformări și îmbinări
  • Funcții definite de utilizator (UDF)
  • laboratoare : scrierea de scripturi Pig pentru analiza datelor

Secțiunea 5: Hive

  • arhitectură și design
  • tipuri de date
  • SQL suport în Hive
  • Crearea de tabele Hive și interogarea
  • partiții
  • îmbinări
  • prelucrarea textului
  • laboratoare : diverse laboratoare privind prelucrarea datelor cu Hive

Secțiunea 6: HBase

  • concepte și arhitectură
  • hbase vs RDBMS vs cassandra
  • HBase Java API
  • Date din seriile de timp pe HBase
  • proiectarea schemei
  • laboratoare : Interacțiunea cu HBase utilizând shell; programarea în HBase Java API; exercițiu de proiectare a schemei

Cerințe

  • să fie familiarizat cu Java limbaj de programare (majoritatea exercițiilor de programare sunt în java)
  • să se simtă confortabil în mediul Linux (să fie capabil să navigheze în linia de comandă Linux, să editeze fișiere folosind vi / nano)

Mediu de laborator

Zero Install : Nu este nevoie să instalați software-ul hadoop pe mașinile studenților! Un cluster hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty )
  • un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox
 28 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite