参考

GPT1

在这里插入图片描述
曾经2018年BERT很火。其实GPT也有了。
区别：BERT：完形填空：中间扣空了预测；GPT：预测未来

GPT1：先要有个预训练模型，然后基于具体的应用做fine-tune（下游任务做微调），才能用

不搞fine-tune了，直接搞个大模型，做所有的事情。
zero-shot
one-shot
few-shot
在这里插入图片描述
给个任务描述，给个例子，prompt，就能得出结果。很像人的一个理解过程，理解自己要干什么事情。

在这里插入图片描述
需要学习人的逻辑（商业化，不能直接胡说八道，有些话不能说）
例子：

在这里插入图片描述

在这里插入图片描述
奖励模型（让模型知道什么是好的回答）
例子：模型输出4种回答。标注员标好了每种回答的分数是多少。损失函数：让分高（好的回答）跟分低（坏的回答）的差距大。

在这里插入图片描述
强化学习无限迭代：
输入问题 – PPO模型输出（回答的问题） – 过奖励模型 – 输出分数是高是低 – 反馈到PPO模型迭代

在这里插入图片描述

在这里插入图片描述

SFT：有监督模型
RL：强化学习模型
两个模型差异要小。