Schița de curs

Introducere

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm și Flink

Instalarea și configurarea Apache Beam

Prezentare generală a funcțiilor și arhitecturii Apache Beam

  • Modelul Beam, SDK-uri, executorii de conducte Beam
  • Back-ends de procesare distribuită

Înțelegerea modelului Apache Beam Programming

  • Cum se execută o conductă

Executarea unui exemplu de conducte

  • Pregătirea unei conducte WordCount
  • Executarea locală a conductei

Proiectarea unei conducte

  • Planificarea structurii, alegerea transformărilor și determinarea metodelor de intrare și ieșire

Crearea conductei

  • Scrierea programului pilot și definirea conductei
  • Utilizarea claselor Apache Beam
  • Seturi de date, transformări, I/O, codificarea datelor etc.

Executarea conductei

  • Executarea pipeline-ului local, pe mașini la distanță și pe un cloud public
  • Alegerea unui runner
  • Configurații specifice runner-ului

Testarea și depanarea Apache Beam

  • Utilizarea indicațiilor de tip pentru a emula tipizarea statică
  • Gestionarea Python Dependențelor de conducte

Procesarea seturilor de date delimitate și nemărginite

  • Windowing și declanșatoare

Realizarea de conducte reutilizabile și întreținute

Crearea de noi surse și scurgeri de date

  • Apache Beam API pentru surse și scurgeri

Integrarea Apache Beam cu alte Big Data sisteme

  • Apache Hadoop, Apache Spark, Apache Kafka

Rezolvarea problemelor

Rezumat și concluzie

Cerințe

  • Experiență cu Python Programming.
  • Experiență cu linia de comandă Linux.

Audiență

  • Dezvoltatori
 14 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite