Schița de curs

Introducere la Data Analysis și Big Data

  • Ce face ca Big Data să fie "mare"?
    • Viteză, volum, varietate, veridicitate (VVVV)
  • Limitele prelucrării tradiționale a datelor
  • Prelucrarea distribuită
  • Analiza statistică
  • Tipuri de analiză Machine Learning
  • Data Visualization

Big Data Roluri și responsabilități

  • Administratori
  • Dezvoltatori
  • Analiști de date

Languages Utilizat pentru Data Analysis

  • R Language
    • De ce R pentru Data Analysis?
    • Manipularea, calcularea și afișarea grafică a datelor
  • Python
    • De ce Python pentru Data Analysis?
    • Manipularea, prelucrarea, curățarea și procesarea datelor

Abordări pentru Data Analysis

  • Analiza statistică
    • Analiza seriilor cronologice
    • Forecasting cu modele de corelație și regresie
    • Inferențială Statistics (estimare)
    • Descriptivă Statistics în seturi Big Data (de exemplu, calcularea mediei)
  • Machine Learning
    • Învățare supravegheată vs. nesupravegheată
    • Clasificare și grupare
    • Estimarea costului metodelor specifice
    • Filtrare
  • Prelucrarea limbajului natural
    • Prelucrarea textului
    • Înțelegerea semnificației textului
    • Generarea automată a textului
    • Analiza sentimentelor / analiza subiectelor
  • Computer Vision
    • Achiziționarea, prelucrarea, analiza și înțelegerea imaginilor
    • Reconstrucția, interpretarea și înțelegerea scenelor 3D
    • Utilizarea datelor din imagini pentru luarea deciziilor

Big Data Infrastructură

  • Stocarea datelor
    • Baze de date relaționale (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Baze de date non-relaționale (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Înțelegerea nuanțelor
      • Baze de date ierarhice
      • Baze de date orientate pe obiect
      • Baze de date orientate pe documente
      • Baze de date orientate grafice
      • Altele
  • Procesare distribuită
    • Hadoop
      • HDFS ca sistem de fișiere distribuit
      • MapReduce pentru procesare distribuită
    • Spark
      • Cadru de calcul în cluster all-in-one in-memory pentru procesarea datelor la scară largă
      • Streaming structurat
      • Spark SQL
      • Machine Learning biblioteci: MLlib
      • Procesare grafică cu GraphX
  • Scalabilitate
    • Nor public
      • AWS, Google, Aliyun, etc.
    • Nor privat
      • OpenStack, Cloud Foundry, etc.
    • Auto-scalabilitate

Alegerea soluției potrivite pentru problemă

Viitorul Big Data

Rezumat și etapele următoare

Cerințe

  • O înțelegere generală a matematicii
  • O înțelegere generală a programării
  • O înțelegere generală a bazelor de date

Audiență

  • Dezvoltatori / programatori
  • Consultanți IT
 35 ore

Numărul de participanți


Pret per participant

Mărturii (7)

Upcoming Courses

Categorii înrudite