Schița de curs
- Introducere
- Hadoop istorie, concepte
- Ecosistem
- Distribuții
- Arhitectură la nivel înalt
- Hadoop mituri
- Hadoop provocări (hardware / software)
- Laboratoare: discutați despre Big Data proiectele și problemele dvs.
- Planificare și instalare
- Selectarea software-ului, Hadoop distribuții
- Dimensionarea clusterului, planificarea creșterii
- Selectarea hardware-ului și a rețelei
- Topologia rack-ului
- instalare
- Multi-tenancy
- Structura directoarelor, jurnale
- Evaluarea comparativă
- Laboratoare: instalarea clusterului, rularea benchmark-urilor de performanță
- Operațiuni HDFS
- Concepte (scalare orizontală, replicare, localitatea datelor, conștientizarea rack-ului)
- Noduri și demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorizarea stării de sănătate
- Administrare pe bază de linie de comandă și browser
- Adăugarea de spațiu de stocare, înlocuirea unităților defecte
- Laboratoare: familiarizarea cu liniile de comandă HDFS
- Ingestia datelor
- Flume pentru ingestia jurnalelor și a altor date în HDFS
- Sqoop pentru importul din SQL baze de date în HDFS, precum și exportul înapoi în SQL
- Depozitarea datelor Hadoop cu Hive
- Copierea datelor între clustere (distcp)
- Utilizarea S3 ca element complementar la HDFS
- Cele mai bune practici și arhitecturi de ingestie a datelor
- Laboratoare: configurarea și utilizarea Flume, la fel pentru Sqoop
- Operațiuni și administrare MapReduce
- Calculul paralel înainte de mapreduce: comparați administrarea HPC vs Hadoop
- Încărcarea clusterului MapReduce
- Noduri și Daemons (JobTracker, TaskTracker)
- Parcurgerea interfeței de utilizator MapReduce
- Configurarea Mapreduce
- Configurarea lucrărilor
- Optimizarea MapReduce
- Rezolvarea MR: ce să le spuneți programatorilor dvs.
- Laboratoare: rularea exemplelor MapReduce
- YARN: arhitectură nouă și capacități noi
- Obiective de proiectare și arhitectură de implementare YARN
- Actori noi: ResourceManager, NodeManager, Application Master
- Instalarea YARN
- Programarea sarcinilor în cadrul YARN
- Laboratoare: investigarea programării sarcinilor
- Subiecte avansate
- Monitorizarea hardware-ului
- Monitorizarea clusterelor
- Adăugarea și eliminarea serverelor, actualizarea Hadoop
- Backup, recuperare și planificarea continuității activității
- Fluxuri de lucru Oozie
- Hadoop Disponibilitate ridicată (HA)
- Hadoop Federație
- Securizarea clusterului dvs. cu Kerberos
- Laboratoare: Configurarea monitorizării
- Piese opționale
- Cloudera Manager pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în cadrul mediului de distribuție Cloudera (CDH5)
- Ambari pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În acest curs, toate exercițiile și laboratoarele sunt efectuate în cadrul administratorului de clustere Ambari și al platformei de date Hortonworks (HDP 2.0)
Cerințe
- experiență în administrarea de bază Linux a sistemului
- abilități de bază de scripting
Cunoștințele de Hadoop și de calcul distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.
Mediul de laborator
Zero Install : Nu este nevoie să instalați software-ul hadoop pe mașinile studenților! Un cluster hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows este recomandat Putty)
- un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox cu extensia FoxyProxy instalată
Mărturii (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Curs - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curs - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Curs - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay