Large Language Models (LLMs) and Reinforcement Learning (RL)

Course Code: llmsrl

Duration: 21 hours

Prerequisites:

基本瞭解 Machine Learning

觀眾

數據科學家
軟體工程師

Overview:

Large Language Models (LLMs) 是高級類型的神經網路，旨在根據接收到的輸入來理解和生成類似人類的文本。Reinforcement Learning （RL）是一種機器學習，其中代理通過在環境中執行操作來學習做出決策，以最大化累積獎勵。

這種以講師為主導的現場培訓（在線或遠端）面向希望全面瞭解 Large Language Models (LLMs) 和 Reinforcement Learning （RL）的中級數據科學家。

在培訓結束時，參與者將能夠：

瞭解變壓器模型的元件和功能。
針對特定任務和應用程式優化和微調 LLM。
瞭解強化學習的核心原則和方法。
瞭解強化學習技術如何提高 LLM 的性能。

課程形式

互動講座和討論。
大量的練習和練習。
在現場實驗室環境中動手實施。

課程自定義選項

如需申請本課程的定製培訓，請聯繫我們進行安排。

Course Outline:

Large Language Models (LLMs) 簡介

LLM概述
定義和意義
當今人工智慧中的應用

變壓器架構

什麼是變壓器，它是如何工作的？
主要元件和特點
嵌入和位置編碼
多頭注意力
前饋神經網路
歸一化和殘差連接

變壓器型號

自注意力機制
編碼器-解碼器架構
位置嵌入
BERT（來自 Transformer 的雙向編碼器表示）
GPT（產生式預訓練轉換器）

性能優化和陷阱

上下文長度
曼巴和狀態空間模型
閃光注意力
稀疏變壓器
視覺變壓器
量化的重要性

改進變壓器

檢索增強文本生成
模型混合
思想之樹

微調

低秩適應理論
使用 QLora 進行微調

LLM 中的縮放定律和優化

LLM擴展法的重要性
數據和模型大小縮放
計算擴展
參數效率縮放

優化

模型大小、數據大小、計算預算和推理需求之間的關係
優化 LLM 的性能和效率
用於訓練和微調 LLM 的最佳實踐和工具

訓練和微調 LLM

從頭開始培訓 LLM 的步驟和挑戰
數據採集與維護
大規模數據、CPU 和記憶體要求
優化挑戰
開源 LLM 的前景

Reinforcement Learning （RL）的基礎知識

Reinforcement Learning 簡介
通過積極強化學習
定義和核心概念
瑪律可夫決策過程（MDP）
動態規劃
蒙特卡羅方法
時差學習

深 Reinforcement Learning

深度 Q 網路（DQN）
近端策略優化（PPO）
Element秒，共 Reinforcement Learning

LLM 和 Reinforcement Learning 的集成

將 LLM 與 Reinforcement Learning 相結合
RL在LLM中的使用方式
Reinforcement Learning 人工反饋（RLHF）
RLHF的替代品

案例研究和應用

實際應用
成功案例和挑戰

高級主題

先進技術
高級優化方法
尖端研發

摘要和後續步驟

Sites Published:

United Arab Emirates - Large Language Models (LLMs) and Reinforcement Learning (RL)

Qatar - Large Language Models (LLMs) and Reinforcement Learning (RL)

Egypt - Large Language Models (LLMs) and Reinforcement Learning (RL)

Saudi Arabia - Large Language Models (LLMs) and Reinforcement Learning (RL)

South Africa - Large Language Models (LLMs) and Reinforcement Learning (RL)

Brasil - Large Language Models (LLMs) and Reinforcement Learning (RL)

Canada - Large Language Models (LLMs) and Reinforcement Learning (RL)

中国 - Large Language Models (LLMs) and Reinforcement Learning (RL)

香港 - Large Language Models (LLMs) and Reinforcement Learning (RL)

澳門 - Large Language Models (LLMs) and Reinforcement Learning (RL)

台灣 - Large Language Models (LLMs) and Reinforcement Learning (RL)

USA - Large Language Models (LLMs) and Reinforcement Learning (RL)

Österreich - Large Language Models (LLMs) and Reinforcement Learning (RL)

Schweiz - Large Language Models (LLMs) and Reinforcement Learning (RL)

Deutschland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Czech Republic - Large Language Models (LLMs) and Reinforcement Learning (RL)

Denmark - Large Language Models (LLMs) and Reinforcement Learning (RL)

Estonia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Finland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Greece - Large Language Models (LLMs) and Reinforcement Learning (RL)

Magyarország - Large Language Models (LLMs) and Reinforcement Learning (RL)

Ireland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Luxembourg - Large Language Models (LLMs) and Reinforcement Learning (RL)

Latvia - Large Language Models (LLMs) and Reinforcement Learning (RL)

España - Large Language Models (LLMs) and Reinforcement Learning (RL)

Italia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Lithuania - Large Language Models (LLMs) and Reinforcement Learning (RL)

Nederland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Norway - Large Language Models (LLMs) and Reinforcement Learning (RL)

Portugal - Large Language Models (LLMs) and Reinforcement Learning (RL)

România - Large Language Models (LLMs) and Reinforcement Learning (RL)

Sverige - Large Language Models (LLMs) and Reinforcement Learning (RL)

Türkiye - Large Language Models (LLMs) and Reinforcement Learning (RL)

Malta - Large Language Models (LLMs) and Reinforcement Learning (RL)

Belgique - Large Language Models (LLMs) and Reinforcement Learning (RL)

France - Large Language Models (LLMs) and Reinforcement Learning (RL)

日本 - Large Language Models (LLMs) and Reinforcement Learning (RL)

Australia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Malaysia - Large Language Models (LLMs) and Reinforcement Learning (RL)

New Zealand - Large Language Models (LLMs) and Reinforcement Learning (RL)

Philippines - Large Language Models (LLMs) and Reinforcement Learning (RL)

Singapore - Large Language Models (LLMs) and Reinforcement Learning (RL)

Thailand - Large Language Models (LLMs) and Reinforcement Learning (RL)

Vietnam - Large Language Models (LLMs) and Reinforcement Learning (RL)

India - Large Language Models (LLMs) and Reinforcement Learning (RL)

Argentina - Large Language Models (LLMs) and Reinforcement Learning (RL)

Chile - Large Language Models (LLMs) and Reinforcement Learning (RL)

Costa Rica - Large Language Models (LLMs) and Reinforcement Learning (RL)

Ecuador - Large Language Models (LLMs) and Reinforcement Learning (RL)

Guatemala - Large Language Models (LLMs) and Reinforcement Learning (RL)

Colombia - Large Language Models (LLMs) and Reinforcement Learning (RL)

México - Large Language Models (LLMs) and Reinforcement Learning (RL)

Panama - Large Language Models (LLMs) and Reinforcement Learning (RL)

Peru - Large Language Models (LLMs) and Reinforcement Learning (RL)

Uruguay - Large Language Models (LLMs) and Reinforcement Learning (RL)

Venezuela - Large Language Models (LLMs) and Reinforcement Learning (RL)

Polska - Large Language Models (LLMs) and Reinforcement Learning (RL)

United Kingdom - Large Language Models (LLMs) and Reinforcement Learning (RL)

South Korea - Large Language Models (LLMs) and Reinforcement Learning (RL)

Pakistan - Large Language Models (LLMs) and Reinforcement Learning (RL)

Sri Lanka - Large Language Models (LLMs) and Reinforcement Learning (RL)

Bulgaria - Large Language Models (LLMs) and Reinforcement Learning (RL)

Bolivia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Indonesia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Kazakhstan - Large Language Models (LLMs) and Reinforcement Learning (RL)

Moldova - Large Language Models (LLMs) and Reinforcement Learning (RL)

Morocco - Large Language Models (LLMs) and Reinforcement Learning (RL)

Tunisia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Kuwait - Large Language Models (LLMs) and Reinforcement Learning (RL)

Oman - Large Language Models (LLMs) and Reinforcement Learning (RL)

Slovakia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Kenya - Large Language Models (LLMs) and Reinforcement Learning (RL)

Nigeria - Large Language Models (LLMs) and Reinforcement Learning (RL)

Botswana - Large Language Models (LLMs) and Reinforcement Learning (RL)

Slovenia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Croatia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Serbia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Bhutan - Large Language Models (LLMs) and Reinforcement Learning (RL)

Nepal - Large Language Models (LLMs) and Reinforcement Learning (RL)

Uzbekistan - Large Language Models (LLMs) and Reinforcement Learning (RL)