Schița de curs

spark.mllib: tipuri de date, algoritmi și utilități

  • Tipuri de date
  • Statistici de bază
    • statistici sumare
    • corelații
    • eșantionare stratificată
    • testarea ipotezelor
    • teste de semnificație în flux
    • generarea de date aleatorii
  • Clasificare și regresie
    • modele liniare (SVM-uri, regresie logistică, regresie liniară)
    • Bayes naiv
    • arbori de decizie
    • ansambluri de arbori (Random Forests și Gradient-Boosted Trees)
    • regresie izotonică
  • filtrare colaborativă
    • alternarea celor mai mici pătrate (ALS)
  • Clustering
    • k-means
    • amestec gaussian
    • clustering prin iterație de putere (PIC)
    • alocarea Dirichlet latentă (LDA)
    • k-means bisectant
    • flux k-means
  • Reducerea dimensionalității
    • descompunerea valorii singulare (SVD)
    • analiza componentelor principale (PCA)
  • Extragerea și transformarea caracteristicilor
  • Extragerea modelelor frecvente
    • creștere FP
    • reguli de asociere
    • PrefixSpan
  • Metrici de evaluare
  • Exportul modelului PMML
  • Optimizare (dezvoltator)
    • coborâre stocastică a gradientului
    • BFGS cu memorie limitată (L-BFGS)

spark.ml: API-uri de nivel înalt pentru conducte ML

  • Prezentare generală: estimatori, transformatoare și conducte
  • Extragerea, transformarea și selectarea caracteristicilor
  • Clasificare și regresie
  • Clustering
  • Subiecte avansate

Cerințe

Cunoștințe despre unul dintre următoarele:

  • Java
  • Scala
  • Python
  • SparkR
 35 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Upcoming Courses

Categorii înrudite