Course Code: mmaiagents
Duration: 21 hours
Prerequisites:
  • Zrozumienie podstaw uczenia maszynowego
  • Doświadczenie w programowaniu Python
  • Znajomość frameworków głębokiego uczenia (np. TensorFlow, PyTorch)

Odbiorcy

  • Programiści AI
  • Naukowcy
  • Inżynierowie multimediów
Overview:

Wielomodalni agenci sztucznej inteligencji przekształcają interakcję człowiek-komputer, integrując możliwości przetwarzania tekstu, obrazów, mowy i wideo.

Szkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla programistów AI, badaczy i inżynierów multimedialnych, którzy chcą budować agentów AI zdolnych do rozumienia i generowania treści multimodalnych.

Pod koniec tego szkolenia uczestnicy będą mogli

  • Rozwijać agentów AI, którzy przetwarzają i integrują dane tekstowe, obrazowe i mowy.
  • Wdrażać modele multimodalne, takie jak GPT-4 Vision i Whisper ASR.
  • Optymalizować multimodalne potoki sztucznej inteligencji pod kątem wydajności i dokładności.
  • Wdrażanie multimodalnych agentów AI w rzeczywistych aplikacjach.

Format kursu

  • Interaktywny wykład i dyskusja.
  • Wiele ćwiczeń i praktyki.
  • Praktyczne wdrożenie w środowisku laboratoryjnym na żywo.

Opcje dostosowywania kursu

  • Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami w celu ustalenia szczegółów.
Course Outline:

Wprowadzenie do multimodalnej sztucznej inteligencji

  • Czym jest multimodalna sztuczna inteligencja?
  • Kluczowe wyzwania i zastosowania
  • Przegląd wiodących modeli multimodalnych

Przetwarzanie tekstu i rozumienie języka naturalnego

  • Wykorzystanie LLM dla tekstowych agentów AI
  • Zrozumienie inżynierii podpowiedzi dla zadań multimodalnych
  • Dostrajanie modeli tekstowych do zastosowań specyficznych dla domeny

Rozpoznawanie i generowanie obrazów

  • Przetwarzanie obrazów za pomocą sztucznej inteligencji: klasyfikacja, podpisy i wykrywanie obiektów
  • Generowanie obrazów za pomocą modeli dyfuzyjnych (Stable Diffusion, DALLE)
  • Integracja danych obrazu z modelami tekstowymi

Przetwarzanie mowy i dźwięku

  • Rozpoznawanie mowy za pomocą Whisper ASR
  • Techniki syntezy tekstu na mowę (TTS)
  • Wzmocnienie interakcji użytkownika za pomocą głosowej sztucznej inteligencji

Integracja wielomodalnych danych wejściowych

  • Tworzenie potoków sztucznej inteligencji do przetwarzania wielu typów danych wejściowych
  • Techniki fuzji do łączenia danych tekstowych, graficznych i mowy
  • Rzeczywiste zastosowania multimodalnych agentów AI

Wdrażanie multimodalności AI Agents

  • Tworzenie multimodalnych rozwiązań AI opartych na API
  • Optymalizacja modeli pod kątem wydajności i skalowalności
  • Najlepsze praktyki wdrażania multimodalnej sztucznej inteligencji w produkcji

Kwestie etyczne i przyszłe trendy

  • Stronniczość i sprawiedliwość w multimodalnej sztucznej inteligencji
  • Obawy o prywatność związane z danymi multimodalnymi
  • Przyszły rozwój multimodalnej sztucznej inteligencji

Podsumowanie i kolejne kroki

Sites Published:

United Arab Emirates - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Qatar - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Egypt - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Saudi Arabia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

South Africa - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Brasil - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Canada - Multi-Modal AI Agents: Integrating Text, Image, and Speech

中国 - Multi-Modal AI Agents: Integrating Text, Image, and Speech

香港 - Multi-Modal AI Agents: Integrating Text, Image, and Speech

澳門 - Multi-Modal AI Agents: Integrating Text, Image, and Speech

台灣 - Multi-Modal AI Agents: Integrating Text, Image, and Speech

USA - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Österreich - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Schweiz - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Deutschland - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Czech Republic - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Denmark - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Estonia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Finland - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Greece - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Magyarország - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Ireland - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Luxembourg - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Latvia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

España - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Italia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Lithuania - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Nederland - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Norway - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Portugal - Multi-Modal AI Agents: Integrating Text, Image, and Speech

România - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Sverige - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Türkiye - Metin, Görüntü ve Konuşmanın Entegrasyonu için Multimodal AI Agents

Malta - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Belgique - Multi-Modal AI Agents: Integrating Text, Image, and Speech

France - Multi-Modal AI Agents: Integrating Text, Image, and Speech

日本 - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Australia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Malaysia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

New Zealand - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Philippines - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Singapore - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Thailand - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Vietnam - Multi-Modal AI Agents: Integrating Text, Image, and Speech

India - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Argentina - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Chile - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Costa Rica - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Ecuador - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Guatemala - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Colombia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

México - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Panama - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Peru - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Uruguay - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Venezuela - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Polska - Multi-Modal AI Agents: Integrating Text, Image, and Speech

United Kingdom - Multi-Modal AI Agents: Integrating Text, Image, and Speech

South Korea - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Pakistan - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Sri Lanka - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Bulgaria - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Bolivia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Indonesia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Kazakhstan - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Moldova - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Morocco - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Tunisia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Kuwait - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Oman - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Slovakia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Kenya - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Nigeria - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Botswana - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Slovenia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Croatia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Serbia - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Bhutan - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Nepal - Multi-Modal AI Agents: Integrating Text, Image, and Speech

Uzbekistan - Multi-Modal AI Agents: Integrating Text, Image, and Speech