- Zrozumienie podstaw uczenia nadzorowanego i wzmocnionego
- Doświadczenie w dostrajaniu modeli i architektur sieci neuronowych
- Znałość programowania Python i ram deep learning (np. TensorFlow, PyTorch)
Grupa docelowa
- Inżynierowie Machine Learning
- Badacze AI
Reinforcement Learning od zwrotnej informacji człowieka (RLHF) jest nowatorską metodą stosowaną do dostrajania modeli takich jak ChatGPT i innych topowych systemów AI.
To szkolenie prowadzone przez instruktora (online lub stacjonarnie) jest skierowane do zaawansowanych inżynierów uczenia maszynowego i badaczy AI, którzy chcą zastosować RLHF do dostrajania dużych modeli AI dla lepszej wydajności, bezpieczeństwa i zgodności.
Na koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć teoretyczne podstawy RLHF i dlaczego jest ono kluczowe w nowoczesnym rozwoju AI.
- Wdrażać modele nagród opierające się na zwrotnej informacji człowieka, aby kierować procesami uczenia przez wzmocnienie.
- Dostrajać duże modele językowe przy użyciu technik RLHF, aby dopasować wyniki do preferencji człowieka.
- Zastosować najlepsze praktyki do skalowania pracowników RLHF dla systemów AI klasy produkcyjnej.
Format kursu
- Interaktywne wykłady i dyskusje.
- Dużo ćwiczeń i praktyki.
- Ręczne wdrażanie w środowisku live-lab.
Opcje dostosowania kursu
- Aby złożyć wniosek o dostosowane szkolenie dla tego kursu, prosimy o kontakt z nami w celu umówienia.
Wprowadzenie do Reinforcement Learning z retroakcji ludzkiej (RLHF)
- Co to jest RLHF i dlaczego jest to ważne
- Porównanie z metodami dopasowywania nadzorowanego
- Zastosowania RLHF w nowoczesnych systemach AI
Modelowanie nagród z retroakcją ludzką
- Zbieranie i strukturowanie retroakcji ludzkich
- Budowanie i trenowanie modeli nagród
- Ocena skuteczności modeli nagród
Trenowanie z optymalizacją polityki bliskiej (PPO)
- Przegląd algorytmów PPO dla RLHF
- Wdrażanie PPO z modelami nagród
- Iteracyjne i bezpieczne dopasowywanie modeli
Praktyczne Fine-Tuning modeli językowych
- Przygotowanie zbiorów danych do przepływów pracy RLHF
- Ręczne dopasowywanie małego modelu językowego LM za pomocą RLHF
- Wyzwania i strategie łagodzenia
Skalowanie RLHF do systemów produkcyjnych
- Wymagania infrastruktury i obliczeniowe
- Zapewnienie jakości i ciągłe pętle retroakcji
- Najlepsze praktyki dla wdrażania i konserwacji
Rozważania etyczne i strategie łagodzenia uprzedzeń
- Rozwiązywanie etycznych ryzyk związanych z retroakcją ludzką
- Strategie wykrywania i korygowania uprzedzeń
- Zapewnienie zgodności i bezpiecznych wyników
Przykłady z życia rzeczywistego i studia przypadku
- Przykład: dopasowywanie ChatGPT z RLHF
- Inne udane wdrożenia RLHF
- Nauczenie się lekcji i wgląd w branżę
Podsumowanie i następne kroki
United Arab Emirates - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Qatar - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Egypt - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Saudi Arabia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
South Africa - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Brasil - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Canada - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
中国 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
香港 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
澳門 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
台灣 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
USA - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Österreich - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Schweiz - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Deutschland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Czech Republic - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Denmark - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Estonia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Finland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Greece - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Magyarország - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Ireland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Luxembourg - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Latvia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
España - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Italia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Lithuania - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Nederland - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Norway - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Portugal - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
România - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Sverige - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Türkiye - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Malta - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Belgique - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
France - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
日本 - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Australia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Malaysia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
New Zealand - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Philippines - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Singapore - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Thailand - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Vietnam - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
India - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Argentina - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Chile - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Costa Rica - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Ecuador - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Guatemala - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Colombia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
México - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Panama - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Peru - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Uruguay - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Venezuela - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Polska - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
United Kingdom - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
South Korea - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Pakistan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Sri Lanka - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Bulgaria - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Bolivia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Indonesia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Kazakhstan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Moldova - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Morocco - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Tunisia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Kuwait - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Oman - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Slovakia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Kenya - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Nigeria - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Botswana - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Slovenia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Croatia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Serbia - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Bhutan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Nepal - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Uzbekistan - Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)