Schița de curs

Introducere în IA multimodală

  • Ce este inteligența artificială multimodală?
  • Principalele provocări și aplicații
  • Prezentare generală a principalelor modele multimodale

Prelucrarea textului și înțelegerea limbajului natural

  • Utilizarea LLM-urilor pentru agenții AI pe bază de text
  • Înțelegerea ingineriei prompterului pentru sarcini multimodale
  • Reglarea fină a modelelor de text pentru aplicații specifice domeniului

Recunoașterea și generarea imaginilor

  • Prelucrarea imaginilor cu AI: clasificare, subtitrare și detectarea obiectelor
  • Generarea de imagini cu modele de difuzie (Stable Diffusion, DALLE)
  • Integrarea datelor din imagini cu modele bazate pe text

Procesarea vorbirii și a sunetului

  • Recunoașterea vorbirii cu Whisper ASR
  • Tehnici de sinteză text-vorbire (TTS)
  • Îmbunătățirea interacțiunii cu utilizatorul cu ajutorul inteligenței artificiale bazate pe voce

Integrarea intrărilor multimodale

  • Crearea de conducte AI pentru prelucrarea mai multor tipuri de intrări
  • Tehnici de fuziune pentru combinarea datelor text, imagine și voce
  • Aplicații din lumea reală ale agenților AI multimodali

Implementarea AI multimodale AI Agents

  • Construirea de soluții AI multimodale bazate pe API
  • Optimizarea modelelor pentru performanță și scalabilitate
  • Cele mai bune practici pentru implementarea AI multimodal în producție

Considerații etice și tendințe viitoare

  • Prejudecăți și echitate în IA multimodală
  • Preocupări legate de confidențialitate în cazul datelor multimodale
  • Evoluții viitoare în IA multimodală

Rezumat și pași următori

Cerințe

  • O înțelegere a fundamentelor învățării automate
  • Experiență cu programarea Python
  • Familiaritate cu cadrele de învățare profundă (de exemplu, TensorFlow, PyTorch)

Audiență

  • Dezvoltatori AI
  • cercetători
  • Ingineri multimedia
 21 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite