Schița de curs

  • Introducere
    • Hadoop istorie, concepte
    • Ecosistem
    • Distribuții
    • Arhitectură la nivel înalt
    • Hadoop mituri
    • Hadoop provocări (hardware / software)
    • Laboratoare: discutați despre Big Data proiectele și problemele dvs.
  • Planificare și instalare
    • Selectarea software-ului, Hadoop distribuții
    • Dimensionarea clusterului, planificarea creșterii
    • Selectarea hardware-ului și a rețelei
    • Topologia rack-ului
    • instalare
    • Multi-tenancy
    • Structura directoarelor, jurnale
    • Evaluarea comparativă
    • Laboratoare: instalarea clusterului, rularea benchmark-urilor de performanță
  • Operațiuni HDFS
    • Concepte (scalare orizontală, replicare, localitatea datelor, conștientizarea rack-ului)
    • Noduri și demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorizarea stării de sănătate
    • Administrare pe bază de linie de comandă și browser
    • Adăugarea de spațiu de stocare, înlocuirea unităților defecte
    • Laboratoare: familiarizarea cu liniile de comandă HDFS
  • Ingestia datelor
    • Flume pentru ingestia jurnalelor și a altor date în HDFS
    • Sqoop pentru importul din SQL baze de date în HDFS, precum și exportul înapoi în SQL
    • Depozitarea datelor Hadoop cu Hive
    • Copierea datelor între clustere (distcp)
    • Utilizarea S3 ca element complementar la HDFS
    • Cele mai bune practici și arhitecturi de ingestie a datelor
    • Laboratoare: configurarea și utilizarea Flume, la fel pentru Sqoop
  • Operațiuni și administrare MapReduce
    • Calculul paralel înainte de mapreduce: comparați administrarea HPC vs Hadoop
    • Încărcarea clusterului MapReduce
    • Noduri și Daemons (JobTracker, TaskTracker)
    • Parcurgerea interfeței de utilizator MapReduce
    • Configurarea Mapreduce
    • Configurarea lucrărilor
    • Optimizarea MapReduce
    • Rezolvarea MR: ce să le spuneți programatorilor dvs.
    • Laboratoare: rularea exemplelor MapReduce
  • YARN: arhitectură nouă și capacități noi
    • Obiective de proiectare și arhitectură de implementare YARN
    • Actori noi: ResourceManager, NodeManager, Application Master
    • Instalarea YARN
    • Programarea sarcinilor în cadrul YARN
    • Laboratoare: investigarea programării sarcinilor
  • Subiecte avansate
    • Monitorizarea hardware-ului
    • Monitorizarea clusterelor
    • Adăugarea și eliminarea serverelor, actualizarea Hadoop
    • Backup, recuperare și planificarea continuității activității
    • Fluxuri de lucru Oozie
    • Hadoop Disponibilitate ridicată (HA)
    • Hadoop Federație
    • Securizarea clusterului dvs. cu Kerberos
    • Laboratoare: Configurarea monitorizării
  • Piese opționale
    • Cloudera Manager pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în cadrul mediului de distribuție Cloudera (CDH5)
    • Ambari pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În acest curs, toate exercițiile și laboratoarele sunt efectuate în cadrul administratorului de clustere Ambari și al platformei de date Hortonworks (HDP 2.0)

Cerințe

  • experiență în administrarea de bază Linux a sistemului
  • abilități de bază de scripting

Cunoștințele de Hadoop și de calcul distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.

Mediul de laborator

Zero Install : Nu este nevoie să instalați software-ul hadoop pe mașinile studenților! Un cluster hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows este recomandat Putty)
  • un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox cu extensia FoxyProxy instalată
 21 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite