Schița de curs
Introducere
- Introducere în soluții de Cloud Computing și Big Data
- Prezentare generală a caracteristicilor și arhitecturii Apache Hadoop
Configurarea Hadoop
- Planificarea unui cluster Hadoop (la fața locului, în cloud etc.)
- Selectarea sistemului de operare și a distribuției Hadoop
- Aprovizionarea resurselor (hardware, rețea etc.)
- Descărcarea și instalarea software-ului
- Dimensionarea clusterului pentru flexibilitate
Lucrul cu HDFS
- Înțelegerea sistemului de fișiere distribuite Hadoop (HDFS)
- Prezentare generală a referinței comenzilor HDFS
- Accesarea HDFS
- Efectuarea operațiilor de bază cu fișiere în HDFS
- Utilizarea S3 ca o completare a HDFS
Prezentare generală a MapReduce
- Înțelegerea fluxului de date în cadrul MapReduce
- Mapare, amestecare, sortare și reducere
- Demonstrație: Calcularea salariilor de top
Lucrul cu YARN
- Înțelegerea gestionării resurselor în Hadoop
- Lucrul cu ResourceManager, NodeManager, Application Master
- Programarea lucrărilor în cadrul YARN
- Programarea pentru un număr mare de noduri și clustere
- Demonstrație: Programarea lucrărilor
Integrarea Hadoop cu Spark
- Configurarea spațiului de stocare pentru Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Înțelegerea seturilor de date distribuite rezistente (RDD)
- Crearea unui RDD
- Implementarea transformărilor RDD
- Demonstrație: Implementarea unui program de căutare text pentru titluri de filme
Gestionarea unui cluster Hadoop
- Monitorizare Hadoop
- Securizarea unui cluster Hadoop
- Adăugarea și eliminarea nodurilor
- Rularea unui criteriu de performanță
- Reglarea unui cluster Hadoop pentru optimizarea performanței
- Backup, recuperare și planificare a continuității activității
- Asigurarea unei disponibilități ridicate (HA)
Actualizarea și migrarea unui cluster Hadoop
- Evaluarea cerințelor privind volumul de muncă
- Actualizarea Hadoop
- Trecerea de la on-premise la cloud și viceversa
- Recuperarea în urma unor defecțiuni
Depanare
Rezumat și concluzii
Cerințe
- Experiență în administrarea sistemelor
- Experiență cu linia de comandă Linux .
- Înțelegere a conceptelor de big data .
Audiență
- Administratori de sistem
- DBA
Mărturii (5)
O mulțime de exemple practice, modalități diferite de abordare a aceleiași probleme și, uneori, trucuri nu atât de evidente pentru a îmbunătăți soluția actuală.
Rafal - Nordea
Curs - Apache Spark MLlib
Tradus de catre o masina
very interactive...
Richard Langford
Curs - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Curs - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curs - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift