Cursuri de pregatire A Practical Introduction to Stream Processing
Stream Processing se referă la procesarea în timp real a „datelor în mișcare”, adică efectuarea de calcule pe date așa cum sunt primite. Aceste date sunt citite ca fluxuri continue din surse de date , cum ar fi evenimente de senzori, activitatea utilizatorilor site - ul, tranzacțiile financiare, glisări de card de credit, faceți clic pe fluxuri etc. Stream Processing cadre sunt capabile să citească volume mari de date de intrare și de a oferi perspective valoroase aproape instantaneu.
În cadrul acestui training, instruit în direct (la fața locului sau la distanță), participanții vor învăța cum să configureze și să integreze diferite cadre de Stream Processing fluxurilor cu sistemele de stocare de date mari existente și aplicațiile software și microserviciile aferente.
Până la sfârșitul acestui antrenament, participanții vor putea:
- Instalați și configurați diferite cadre de Stream Processing fluxurilor, cum ar fi Spark Streaming și Kafka Streaming.
- Înțelegeți și selectați cadrul cel mai potrivit pentru job.
- Procesarea datelor în mod continuu, concomitent și într-o manieră record-by-record.
- Integrați soluțiile de Stream Processing fluxurilor cu bazele de date existente, depozite de date, lacuri de date etc.
- Integrați cea mai potrivită bibliotecă de procesare a fluxurilor cu aplicații de întreprindere și microservicii.
Public
- Dezvoltatori
- Arhitecți software
Formatul cursului
- Partea de prelegere, o discuție parțială, exerciții și practici practice
notițe
- Pentru a solicita un antrenament personalizat pentru acest curs, vă rugăm să ne contactați pentru a vă organiza.
Schița de curs
Introducere
- Procesare în flux vs procesare în lot
- Procesarea fluxului axată pe analize
Prezentare generală a cadrelor și Programming Languages
- Spark Streaming (Scala)
- Streaming Kafka (Java)
- Flink
- Furtună
- Comparația caracteristicilor și punctelor forte ale fiecărui cadru
Prezentare generală a surselor de date
- Date live ca o serie de evenimente de-a lungul timpului
- Surse de date istorice
Opțiuni de implementare
- În cloud (AWS etc.)
- On premise (nor privat etc.)
Noțiuni de bază
- Crearea mediului de dezvoltare
- Instalare și configurare
- Evaluarea nevoilor dvs. Data Analysis.
Operarea unui cadru de streaming
- Integrarea cadrului de streaming cu Big Data Tools
- Eveniment Stream Processing (ESP) vs Procesarea evenimentelor complexe (CEP)
- Transformarea datelor de intrare
- Inspectarea datelor de ieșire
- Integrarea cadrului Stream Processing cu aplicațiile existente și Microservices
Depanare
Rezumat și Concluzie
Cerințe
- Programming experiență în orice limbă
- Înțelegere a conceptelor Big Data (Hadoop, etc.) .
Cursurile publice necesita 5+ participanti
Cursuri de pregatire A Practical Introduction to Stream Processing - Booking
Cursuri de pregatire A Practical Introduction to Stream Processing - Enquiry
A Practical Introduction to Stream Processing - Cerere de consultanta
Cerere de consultanta
Mărturii (1)
Sufficient hands on, trainer is knowledgable
Chris Tan
Curs - A Practical Introduction to Stream Processing
Upcoming Courses
Cursuri înrudite
Apache Ignite for Administrators
7 oreFormatul cursului
- Prelegere și discuții interactive.
- O mulțime de exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita o instruire personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 oreAcest curs se adresează dezvoltatorilor și cercetătorilor de date care doresc să înțeleagă și să implementeze inteligența artificială în aplicațiile lor. O atenție deosebită este acordată analizei datelor, inteligenței artificiale distribuite și procesării limbajului natural.
Apache Kafka Connect
7 oreAcest curs de instruire live, condus de un instructor în Moldova (online sau la fața locului) se adresează dezvoltatorilor care doresc să integreze Apache Kafka cu bazele de date și aplicațiile existente pentru procesare, analiză etc.
La sfârșitul acestui curs de formare, participanții vor fi capabili să:
- Utilizați Kafka Connect pentru a ingera cantități mari de date dintr-o bază de date în subiectele Kafka.
- Ingerați datele de jurnal generate de serverele unei aplicații în subiecte Kafka.
- Puneți la dispoziție orice date colectate pentru procesarea fluxurilor. .
- Exportați datele din subiectele Kafka în sisteme secundare pentru stocare și analiză. .
Unified Batch and Stream Processing with Apache Beam
14 oreApache Beam este un model de programare unificat, cu sursă deschisă, pentru definirea și executarea conductelor paralele de prelucrare a datelor. Puterea sa constă în capacitatea sa de a rula atât conducte pe loturi, cât și conducte de flux, execuția fiind efectuată de unul dintre back-end-urile de procesare distribuită acceptate de Beam: Apache Apex, Apache Flink, Apache Spark și Google Cloud Dataflow. Apache Beam este util pentru sarcinile ETL (Extract, Transform, and Load), cum ar fi mutarea datelor între diferite medii de stocare și surse de date, transformarea datelor într-un format mai dorit și încărcarea datelor într-un sistem nou.
În cadrul acestei formări live (la fața locului sau de la distanță) susținute de un instructor, participanții vor învăța cum să implementeze SDK-urile Apache Beam într-o aplicație Java sau Python care definește o conductă de procesare a datelor pentru descompunerea unui set de date mari în bucăți mai mici pentru procesare independentă, paralelă.
La finalul acestei instruiri, participanții vor fi capabili să:
- Să instaleze și să configureze Apache Beam.
- Să utilizeze un singur model de programare pentru a efectua atât procesarea pe loturi, cât și pe fluxuri din cadrul aplicației Java sau Python.
- Să execute pipeline-uri în mai multe medii.
Formatul cursului
- Parte prelegere, parte discuție, exerciții și multă practică
Notă
- Acest curs va fi disponibil Scala în viitor. Vă rugăm să ne contactați pentru a aranja.
Building Kafka Solutions with Confluent
14 oreacest instructor-condus, Live Training (la fața locului sau la distanță) este destinat ingineri care doresc să utilizeze confluente (o distribuție de Kafka) pentru a construi și de a gestiona o platformă de prelucrare a datelor în timp real pentru aplicațiile lor.
până la sfârșitul acestui training, participanții vor putea:
- instala și configura platforma confluent.
- utilizarea confluente & #39; s instrumente de gestionare și servicii pentru a rula Kafka mai ușor.
- stoca și procesul de intrare flux de date.
- optimiza și gestiona clustere Kafka.
- sigure fluxuri de date.
format al cursului
- interactive prelegere și discuții.
- o mulțime de exerciții și practică.
- hands-on punerea în aplicare într-un mediu de laborator live.
curs opțiuni de personalizare
- acest curs se bazează pe versiunea Open Source de confluente: confluent deschidere acru.
- pentru a solicita un training personalizat pentru acest curs, va rugam sa ne contactati pentru a aranja.
Apache Flink Fundamentals
28 oreAcest curs de formare live, condus de un instructor în Moldova (online sau la fața locului) prezintă principiile și abordările care stau la baza procesării distribuite a datelor în flux și pe loturi și conduce participanții prin crearea unei aplicații de flux de date în timp real în Apache Flink.
Până la sfârșitul acestui curs, participanții vor fi capabili să:
- Să creeze un mediu pentru dezvoltarea de aplicații de analiză a datelor.
- Să înțeleagă cum funcționează biblioteca de procesare a grafurilor (Gelly) din Apache Flink.
- Să împacheteze, să execute și să monitorizeze aplicații de flux de date bazate pe Flink, tolerante la erori.
- Gestionarea diverselor sarcini de lucru.
- Efectuarea de analize avansate.
- Configurarea unui cluster Flink cu mai multe noduri.
- Măsurarea și optimizarea performanței.
- Integrarea Flink cu diferite sisteme Big Data.
- Compararea capacităților Flink cu cele ale altor cadre de procesare a datelor mari.
Introduction to Graph Computing
28 oreÎn cadrul acestei formări live cu instructor în Moldova, participanții vor învăța despre ofertele tehnologice și abordările de implementare pentru prelucrarea datelor grafice. Scopul este de a identifica obiecte din lumea reală, caracteristicile și relațiile acestora, apoi de a modela aceste relații și de a le prelucra ca date utilizând o abordare Graph Computing (cunoscută și sub denumirea de Graph Analytics). Vom începe cu o prezentare generală și ne vom concentra pe instrumente specifice pe măsură ce parcurgem o serie de studii de caz, exerciții practice și implementări live.
Până la sfârșitul acestui curs, participanții vor fi capabili să:
- Să înțeleagă modul în care datele grafice sunt păstrate și parcurse.
- Să selecteze cel mai bun cadru pentru o anumită sarcină (de la baze de date grafice la cadre de procesare pe loturi).
- Să implementeze Hadoop, Spark, GraphX și Pregel pentru a efectua calculul grafurilor pe mai multe mașini în paralel.
- Vizualizarea problemelor reale legate de big data în termeni de grafuri, procese și traversări.
Apache Kafka for Python Programmers
7 oreAceastă instruire live, cu instructor în Moldova (online sau la fața locului) se adresează inginerilor de date, cercetătorilor de date și programatorilor care doresc să utilizeze caracteristicile Apache Kafka în fluxul de date cu Python.
Până la sfârșitul acestei formări, participanții vor fi capabili să utilizeze Apache Kafka pentru a monitoriza și gestiona condițiile în fluxurile continue de date utilizând programarea Python.
Stream Processing with Kafka Streams
7 oreKafka Streams este o bibliotecă din partea clientului pentru construirea de aplicații și microservicii ale căror date sunt transmise către și de la un sistem de mesagerie Kafka. În mod tradițional, Apache Kafka s-a bazat pe Apache Spark sau Apache Storm pentru a prelucra date între producătorii de mesaje și consumatori. Apelând API-ul Kafka Streams din cadrul unei aplicații, datele pot fi procesate direct în Kafka, ocolind nevoia de a trimite datele către un cluster separat pentru procesare.
În cadrul acestui training, instruit în direct, participanții vor învăța cum să integreze Kafka Streams într-un set de aplicații Java care să treacă date de la și de la Apache Kafka pentru procesarea fluxului.
Până la sfârșitul acestui antrenament, participanții vor putea:
- Înțelegeți caracteristicile și avantajele Kafka Streams față de alte cadre de procesare a fluxurilor
- Procesați fluxul de date direct în cadrul unui cluster Kafka
- Scrieți o aplicație sau microservice Java sau Scala care se integrează cu Kafka și Kafka Streams
- Scrieți un cod concis care transformă subiectele Kafka de intrare în subiecte Kafka de ieșire
- Construiți, împachetați și implementați aplicația
Public
- Dezvoltatori
Formatul cursului
- Partea de prelegere, o discuție parțială, exerciții și practici practice
notițe
- Pentru a solicita un antrenament personalizat pentru acest curs, vă rugăm să ne contactați pentru a vă organiza
Confluent KSQL
7 oreAcest curs de formare live, condus de un instructor în Moldova (online sau la fața locului) se adresează dezvoltatorilor care doresc să implementeze Apache Kafka procesarea fluxurilor fără a scrie cod.
Până la sfârșitul acestei formări, participanții vor fi capabili să:
- Să instaleze și să configureze Confluent KSQL.
- Să configureze o conductă de procesare a fluxurilor utilizând numai comenzi SQL (fără codare Java sau Python).
- Să efectueze filtrarea datelor, transformări, agregări, îmbinări, ferestre și sesionări în întregime în SQL.
- Proiectați și implementați interogări interactive și continue pentru ETL în flux și analize în timp real.
Apache NiFi for Administrators
21 oreÎn cadrul acestei formări live cu instructor în Moldova (la fața locului sau la distanță), participanții vor învăța cum să implementeze și să gestioneze Apache NiFi într-un mediu de laborator live.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să instaleze și să configureze Apachi NiFi.
- Să genereze, să transforme și să gestioneze date din surse de date disparate și distribuite, inclusiv baze de date și lacuri de date mari.
- Să automatizeze fluxurile de date.
- Să permită analizele de flux.
- Aplicați diverse abordări pentru ingestia datelor.
- Transformarea Big Data și în perspective de afaceri.
Apache NiFi for Developers
7 oreÎn cadrul acestei formări live, condusă de un instructor în Moldova, participanții vor învăța elementele de bază ale programării bazate pe flux pe măsură ce vor dezvolta o serie de extensii, componente și procesoare demonstrative utilizând Apache NiFi.
Până la sfârșitul acestei instruiri, participanții vor fi capabili să:
- Să înțeleagă arhitectura NiFi și conceptele de flux de date.
- Să dezvolte extensii utilizând NiFi și API-uri terțe.
- Să își dezvolte propriul procesor Apache Nifi personalizat.
- Să primească și să proceseze date în timp real din formate de fișiere și surse de date disparate și neobișnuite.
Python and Spark for Big Data (PySpark)
21 oreÎn cadrul acestui curs de formare live, condus de un instructor în Moldova, participanții vor învăța cum să utilizeze Python și Spark împreună pentru a analiza date mari, pe măsură ce lucrează la exerciții practice.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să învețe cum să utilizeze Spark cu Python pentru a analiza Big Data.
- Să lucreze la exerciții care imită cazuri din lumea reală.
- Să utilizeze diferite instrumente și tehnici pentru analiza datelor mari utilizând PySpark.
Spark Streaming with Python and Kafka
7 oreAceastă instruire live, cu instructor, în Moldova (online sau la fața locului) se adresează inginerilor de date, cercetătorilor de date și programatorilor care doresc să utilizeze caracteristicile Spark Streaming în procesarea și analiza datelor în timp real.
Până la sfârșitul acestei instruiri, participanții vor fi capabili să utilizeze Spark Streaming pentru a procesa fluxuri de date în timp real pentru a fi utilizate în baze de date, sisteme de fișiere și tablouri de bord în timp real.
Apache Spark MLlib
35 oreMLlib este biblioteca Spark de învățare automată (ML). Scopul său este de a face învățarea practică a mașinilor scalabilă și ușoară. Se compune din algoritmi și utilități comune de învățare, inclusiv clasificarea, regresia, gruparea, filtrarea colaborativă, reducerea dimensiunilor, precum și primitivele de optimizare la nivel inferior și API-urile de conducte de nivel superior.
Se împarte în două pachete:
spark.mllib conține API original construit pe partea de sus RDDs.
spark.ml furnizează API de nivel superior construit pe partea de sus a DataFrames pentru construirea conductelor ML.
Public
Acest curs este adresat inginerilor și dezvoltatorilor care încearcă să utilizeze o mașină de bibliotecă construită pentru Apache Spark