Course Code: ftrlhf
Duration: 14 hours
Prerequisites:
  • Zrozumienie podstaw uczenia nadzorowanego i wzmocnionego
  • Doświadczenie w dostrajaniu modeli i architektur sieci neuronowych
  • Znałość programowania Python i ram deep learning (np. TensorFlow, PyTorch)

Grupa docelowa

  • Inżynierowie Machine Learning
  • Badacze AI
Overview:

Reinforcement Learning od zwrotnej informacji człowieka (RLHF) jest nowatorską metodą stosowaną do dostrajania modeli takich jak ChatGPT i innych topowych systemów AI.

To szkolenie prowadzone przez instruktora (online lub stacjonarnie) jest skierowane do zaawansowanych inżynierów uczenia maszynowego i badaczy AI, którzy chcą zastosować RLHF do dostrajania dużych modeli AI dla lepszej wydajności, bezpieczeństwa i zgodności.

Na koniec tego szkolenia uczestnicy będą mogli:

  • Zrozumieć teoretyczne podstawy RLHF i dlaczego jest ono kluczowe w nowoczesnym rozwoju AI.
  • Wdrażać modele nagród opierające się na zwrotnej informacji człowieka, aby kierować procesami uczenia przez wzmocnienie.
  • Dostrajać duże modele językowe przy użyciu technik RLHF, aby dopasować wyniki do preferencji człowieka.
  • Zastosować najlepsze praktyki do skalowania pracowników RLHF dla systemów AI klasy produkcyjnej.

Format kursu

  • Interaktywne wykłady i dyskusje.
  • Dużo ćwiczeń i praktyki.
  • Ręczne wdrażanie w środowisku live-lab.

Opcje dostosowania kursu

  • Aby złożyć wniosek o dostosowane szkolenie dla tego kursu, prosimy o kontakt z nami w celu umówienia.
Course Outline:

Wprowadzenie do Reinforcement Learning z retroakcji ludzkiej (RLHF)

  • Co to jest RLHF i dlaczego jest to ważne
  • Porównanie z metodami dopasowywania nadzorowanego
  • Zastosowania RLHF w nowoczesnych systemach AI

Modelowanie nagród z retroakcją ludzką

  • Zbieranie i strukturowanie retroakcji ludzkich
  • Budowanie i trenowanie modeli nagród
  • Ocena skuteczności modeli nagród

Trenowanie z optymalizacją polityki bliskiej (PPO)

  • Przegląd algorytmów PPO dla RLHF
  • Wdrażanie PPO z modelami nagród
  • Iteracyjne i bezpieczne dopasowywanie modeli

Praktyczne Fine-Tuning modeli językowych

  • Przygotowanie zbiorów danych do przepływów pracy RLHF
  • Ręczne dopasowywanie małego modelu językowego LM za pomocą RLHF
  • Wyzwania i strategie łagodzenia

Skalowanie RLHF do systemów produkcyjnych

  • Wymagania infrastruktury i obliczeniowe
  • Zapewnienie jakości i ciągłe pętle retroakcji
  • Najlepsze praktyki dla wdrażania i konserwacji

Rozważania etyczne i strategie łagodzenia uprzedzeń

  • Rozwiązywanie etycznych ryzyk związanych z retroakcją ludzką
  • Strategie wykrywania i korygowania uprzedzeń
  • Zapewnienie zgodności i bezpiecznych wyników

Przykłady z życia rzeczywistego i studia przypadku

  • Przykład: dopasowywanie ChatGPT z RLHF
  • Inne udane wdrożenia RLHF
  • Nauczenie się lekcji i wgląd w branżę

Podsumowanie i następne kroki

Sites Published:

United Arab Emirates - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Qatar - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Egypt - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Saudi Arabia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

South Africa - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Brasil - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Canada - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

中国 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

香港 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

澳門 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

台灣 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

USA - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Österreich - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Schweiz - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Deutschland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Czech Republic - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Denmark - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Estonia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Finland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Greece - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Magyarország - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Ireland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Luxembourg - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Latvia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

España - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Italia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Lithuania - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Nederland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Norway - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Portugal - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

România - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Sverige - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Türkiye - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Malta - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Belgique - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

France - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

日本 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Australia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Malaysia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

New Zealand - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Philippines - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Singapore - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Thailand - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Vietnam - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

India - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Argentina - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Chile - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Costa Rica - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Ecuador - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Guatemala - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Colombia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

México - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Panama - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Peru - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Uruguay - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Venezuela - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Polska - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

United Kingdom - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

South Korea - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Pakistan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Sri Lanka - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Bulgaria - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Bolivia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Indonesia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Kazakhstan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Moldova - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Morocco - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Tunisia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Kuwait - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Oman - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Slovakia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Kenya - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Nigeria - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Botswana - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Slovenia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Croatia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Serbia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Bhutan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Nepal - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)

Uzbekistan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)