Large Language Models (LLMs) and Reinforcement Learning (RL)

Course Code: llmsrl

Duration: 21 hours

Prerequisites:

基本了解 Machine Learning

观众

数据科学家
软件工程师

Overview:

Large Language Models (LLMs) 是高级类型的神经网络，旨在根据接收到的输入来理解和生成类似人类的文本。Reinforcement Learning （RL）是一种机器学习，其中代理通过在环境中执行操作来学习做出决策，以最大化累积奖励。

这种以讲师为主导的现场培训（在线或远程）面向希望全面了解 Large Language Models (LLMs) 和 Reinforcement Learning （RL）的中级数据科学家。

在培训结束时，参与者将能够：

了解变压器模型的组件和功能。
针对特定任务和应用程序优化和微调 LLM。
了解强化学习的核心原则和方法。
了解强化学习技术如何提高 LLM 的性能。

课程形式

互动讲座和讨论。
大量的练习和练习。
在现场实验室环境中动手实施。

课程自定义选项

如需申请本课程的定制培训，请联系我们进行安排。

Course Outline:

Large Language Models (LLMs) 简介

LLM概述
定义和意义
当今人工智能中的应用

变压器架构

什么是变压器，它是如何工作的？
主要组件和特点
嵌入和位置编码
多头注意力
前馈神经网络
归一化和残差连接

变压器型号

自注意力机制
编码器-解码器架构
位置嵌入
BERT（来自 Transformer 的双向编码器表示）
GPT（生成式预训练转换器）

性能优化和陷阱

上下文长度
曼巴和状态空间模型
闪光注意力
稀疏变压器
视觉变压器
量化的重要性

改进变压器

检索增强文本生成
模型混合
思想之树

微调

低秩适应理论
使用 QLora 进行微调

LLM 中的缩放定律和优化

LLM扩展法的重要性
数据和模型大小缩放
计算扩展
参数效率缩放

优化

模型大小、数据大小、计算预算和推理需求之间的关系
优化 LLM 的性能和效率
用于训练和微调 LLM 的最佳实践和工具

训练和微调 LLM

从头开始培训 LLM 的步骤和挑战
数据采集与维护
大规模数据、CPU 和内存要求
优化挑战
开源 LLM 的前景

Reinforcement Learning （RL）的基础知识

Reinforcement Learning 简介
通过积极强化学习
定义和核心概念
马尔可夫决策过程（MDP）
动态规划
蒙特卡罗方法
时差学习

深 Reinforcement Learning

深度 Q 网络（DQN）
近端策略优化（PPO）
Element秒，共 Reinforcement Learning

LLM 和 Reinforcement Learning 的集成

将 LLM 与 Reinforcement Learning 相结合
RL在LLM中的使用方式
Reinforcement Learning 人工反馈（RLHF）
RLHF的替代品

案例研究和应用

实际应用
成功案例和挑战

高级主题

先进技术
高级优化方法
尖端研发

摘要和后续步骤

Sites Published:

United Arab Emirates - Large Language Models (LLMs) and Reinforcement Learning (RL)

Qatar - Large Language Models (LLMs) and Reinforcement Learning (RL)

Egypt - Large Language Models (LLMs) and Reinforcement Learning (RL)

Saudi Arabia - Large Language Models (LLMs) and Reinforcement Learning (RL)

South Africa - Large Language Models (LLMs) and Reinforcement Learning (RL)

Brasil - Large Language Models (LLMs) and Reinforcement Learning (RL)

Canada - Large Language Models (LLMs) and Reinforcement Learning (RL)

中国 - Large Language Models (LLMs) and Reinforcement Learning (RL)

香港 - Large Language Models (LLMs) and Reinforcement Learning (RL)

澳門 - Large Language Models (LLMs) and Reinforcement Learning (RL)

台灣 - Large Language Models (LLMs) and Reinforcement Learning (RL)

USA - Large Language Models (LLMs) and Reinforcement Learning (RL)

Österreich - Large Language Models (LLMs) and Reinforcement Learning (RL)

Schweiz - Large Language Models (LLMs) and Reinforcement Learning (RL)

Deutschland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Czech Republic - Large Language Models (LLMs) and Reinforcement Learning (RL)

Denmark - Large Language Models (LLMs) and Reinforcement Learning (RL)

Estonia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Finland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Greece - Large Language Models (LLMs) and Reinforcement Learning (RL)

Magyarország - Large Language Models (LLMs) and Reinforcement Learning (RL)

Ireland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Luxembourg - Large Language Models (LLMs) and Reinforcement Learning (RL)

Latvia - Large Language Models (LLMs) and Reinforcement Learning (RL)

España - Large Language Models (LLMs) and Reinforcement Learning (RL)

Italia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Lithuania - Large Language Models (LLMs) and Reinforcement Learning (RL)

Nederland - Large Language Models (LLMs) and Reinforcement Learning (RL)

Norway - Large Language Models (LLMs) and Reinforcement Learning (RL)

Portugal - Large Language Models (LLMs) and Reinforcement Learning (RL)

România - Large Language Models (LLMs) and Reinforcement Learning (RL)

Sverige - Large Language Models (LLMs) and Reinforcement Learning (RL)

Türkiye - Large Language Models (LLMs) and Reinforcement Learning (RL)

Malta - Large Language Models (LLMs) and Reinforcement Learning (RL)

Belgique - Large Language Models (LLMs) and Reinforcement Learning (RL)

France - Large Language Models (LLMs) and Reinforcement Learning (RL)

日本 - Large Language Models (LLMs) and Reinforcement Learning (RL)

Australia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Malaysia - Large Language Models (LLMs) and Reinforcement Learning (RL)

New Zealand - Large Language Models (LLMs) and Reinforcement Learning (RL)

Philippines - Large Language Models (LLMs) and Reinforcement Learning (RL)

Singapore - Large Language Models (LLMs) and Reinforcement Learning (RL)

Thailand - Large Language Models (LLMs) and Reinforcement Learning (RL)

Vietnam - Large Language Models (LLMs) and Reinforcement Learning (RL)

India - Large Language Models (LLMs) and Reinforcement Learning (RL)

Argentina - Large Language Models (LLMs) and Reinforcement Learning (RL)

Chile - Large Language Models (LLMs) and Reinforcement Learning (RL)

Costa Rica - Large Language Models (LLMs) and Reinforcement Learning (RL)

Ecuador - Large Language Models (LLMs) and Reinforcement Learning (RL)

Guatemala - Large Language Models (LLMs) and Reinforcement Learning (RL)

Colombia - Large Language Models (LLMs) and Reinforcement Learning (RL)

México - Large Language Models (LLMs) and Reinforcement Learning (RL)

Panama - Large Language Models (LLMs) and Reinforcement Learning (RL)

Peru - Large Language Models (LLMs) and Reinforcement Learning (RL)

Uruguay - Large Language Models (LLMs) and Reinforcement Learning (RL)

Venezuela - Large Language Models (LLMs) and Reinforcement Learning (RL)

Polska - Large Language Models (LLMs) and Reinforcement Learning (RL)

United Kingdom - Large Language Models (LLMs) and Reinforcement Learning (RL)

South Korea - Large Language Models (LLMs) and Reinforcement Learning (RL)

Pakistan - Large Language Models (LLMs) and Reinforcement Learning (RL)

Sri Lanka - Large Language Models (LLMs) and Reinforcement Learning (RL)

Bulgaria - Large Language Models (LLMs) and Reinforcement Learning (RL)

Bolivia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Indonesia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Kazakhstan - Large Language Models (LLMs) and Reinforcement Learning (RL)

Moldova - Large Language Models (LLMs) and Reinforcement Learning (RL)

Morocco - Large Language Models (LLMs) and Reinforcement Learning (RL)

Tunisia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Kuwait - Large Language Models (LLMs) and Reinforcement Learning (RL)

Oman - Large Language Models (LLMs) and Reinforcement Learning (RL)

Slovakia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Kenya - Large Language Models (LLMs) and Reinforcement Learning (RL)

Nigeria - Large Language Models (LLMs) and Reinforcement Learning (RL)

Botswana - Large Language Models (LLMs) and Reinforcement Learning (RL)

Slovenia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Croatia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Serbia - Large Language Models (LLMs) and Reinforcement Learning (RL)

Bhutan - Large Language Models (LLMs) and Reinforcement Learning (RL)

Nepal - Large Language Models (LLMs) and Reinforcement Learning (RL)

Uzbekistan - Large Language Models (LLMs) and Reinforcement Learning (RL)