Schița de curs
Introducere
- Prezentare generală a funcțiilor și arhitecturii Spark și Hadoop
- Înțelegerea big data
- Python elementele de bază ale programării
Noțiuni introductive
- Configurarea Python, Spark și Hadoop
- Înțelegerea structurilor de date în Python
- Înțelegerea API-ului PySpark
- Înțelegerea HDFS și MapReduce
Integrarea Spark și Hadoop cu Python
- Implementarea Spark RDD în Python
- Prelucrarea datelor utilizând MapReduce
- Crearea seturilor de date distribuite în HDFS
Machine Learning cu Spark MLlib
Prelucrarea Big Data cu Spark Streaming
Lucrul cu sistemele de recomandare
Lucrul cu Kafka, Sqoop, Kafka și Flume
Apache Mahout cu Spark și Hadoop
Rezolvarea problemelor
Rezumat și pași următori
Cerințe
- Experiență cu Spark și Hadoop
- Python experiență în programare
Audiență
- Oameni de știință în domeniul datelor
- Dezvoltatori
Mărturii (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
The live examples