Schița de curs

1: HDFS (17%)

  • Descrieți funcția demonilor HDFS
  • Descrieți funcționarea normală a unui cluster Apache Hadoop, atât în ceea ce privește stocarea, cât și prelucrarea datelor.
  • Identificați caracteristicile actuale ale sistemelor de calcul care motivează un sistem precum Apache Hadoop.
  • Clasificați obiectivele majore ale proiectării HDFS
  • Având în vedere un scenariu, identificați cazul de utilizare adecvat pentru federația HDFS
  • Identificați componentele și demonii unui cluster HDFS HA-Quorum
  • Analizați rolul securității HDFS (Kerberos)
  • Determinați cea mai bună alegere de serializare a datelor pentru un scenariu dat
  • Descrieți căile de citire și scriere a fișierelor
  • Identificarea comenzilor pentru manipularea fișierelor în Hadoop File System Shell

2: YARN și MapReduce versiunea 2 (MRv2) (17%)

  • Înțelegerea modului în care actualizarea unui cluster de la Hadoop 1 la Hadoop 2 afectează setările clusterului
  • Înțelegeți cum să implementați MapReduce v2 (MRv2 / YARN), inclusiv toate demonii YARN
  • Înțelegerea strategiei de proiectare de bază pentru MapReduce v2 (MRv2)
  • Determinarea modului în care YARN gestionează alocarea resurselor
  • Identificarea fluxului de lucru al unei sarcini MapReduce care rulează pe YARN
  • Determinați ce fișiere trebuie modificate și cum pentru a migra un cluster de la MapReduce versiunea 1 (MRv1) la MapReduce versiunea 2 (MRv2) care rulează pe YARN.

3: Hadoop Planificarea clusterelor (16%)

  • Principalele puncte de luat în considerare în alegerea hardware-ului și a sistemelor de operare pentru a găzdui un cluster Apache Hadoop.
  • Analizați opțiunile în selectarea unui sistem de operare
  • Înțelegerea acordării kernelului și a swapării discurilor
  • Având în vedere un scenariu și un model de sarcină de lucru, identificați o configurație hardware adecvată scenariului
  • Având în vedere un scenariu, determinați componentele ecosistemului pe care clusterul trebuie să le ruleze pentru a îndeplini SLA
  • Dimensionarea clusterului: având în vedere un scenariu și frecvența de execuție, identificați elementele specifice pentru volumul de lucru, inclusiv CPU, memorie, stocare, I/O pe disc
  • Dimensionarea și configurarea discurilor, inclusiv JBOD versus RAID, SAN-uri, virtualizare și cerințele de dimensionare a discurilor într-un cluster
  • Topologii de rețea: înțelegerea utilizării rețelei în Hadoop (atât pentru HDFS, cât și pentru MapReduce) și propunerea sau identificarea componentelor cheie de proiectare a rețelei pentru un anumit scenariu

4: Hadoop Instalarea și administrarea clusterelor (25%)

  • Având în vedere un scenariu, identificați modul în care clusterul va gestiona eșecurile discurilor și ale mașinilor
  • Analizați o configurație de logare și formatul fișierului de configurare a logării
  • Înțelegeți elementele de bază ale metricilor Hadoop și ale monitorizării stării clusterului
  • Să identifice funcția și scopul instrumentelor disponibile pentru monitorizarea clusterului
  • Să fie capabil să instaleze toate componentele ecosistemului în CDH 5, inclusiv (dar fără a se limita la): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive și Pig
  • Identificați funcția și scopul instrumentelor disponibile pentru gestionarea sistemului de fișiere Apache Hadoop

5: Resurse Management (10%)

  • Înțelegeți obiectivele generale de proiectare ale fiecărui programator Hadoop.
  • Dat fiind un scenariu, determinați modul în care FIFO Scheduler alocă resursele clusterului
  • Având în vedere un scenariu, determinați modul în care Fair Scheduler alocă resursele clusterului sub YARN
  • Având în vedere un scenariu, determinați modul în care Capacity Scheduler alocă resursele clusterului

6: Monitorizare și logare (15%)

  • Înțelegeți funcțiile și caracteristicile abilităților de colectare a metricelor ale Hadoop.
  • Analizați interfețele web NameNode și JobTracker
  • Înțelegerea modului de monitorizare a demonilor de cluster
  • Identificați și monitorizați utilizarea CPU pe nodurile principale
  • Descrieți cum să monitorizați alocarea swap și a memoriei pe toate nodurile
  • Identificați modul de vizualizare și gestionare a fișierelor jurnal ale Hadoop.
  • Interpretarea unui fișier jurnal

Cerințe

  • Competențe de bază Linux de administrare
  • Competențe de bază în programare
 35 ore

Numărul de participanți


Pret per participant

Mărturii (3)

Upcoming Courses

Categorii înrudite