参考
GPT1

曾经2018年BERT很火。其实GPT也有了。
区别:BERT:完形填空:中间扣空了预测;GPT:预测未来
GPT1:先要有个预训练模型,然后基于具体的应用做fine-tune(下游任务做微调),才能用
GPT2
不搞fine-tune了,直接搞个大模型,做所有的事情。
zero-shot
one-shot
few-shot
给个任务描述,给个例子,prompt,就能得出结果。很像人的一个理解过程,理解自己要干什么事情。
ChatGPT

需要学习人的逻辑(商业化,不能直接胡说八道,有些话不能说)
例子:
强化学习


奖励模型(让模型知道什么是好的回答)
例子:模型输出4种回答。标注员标好了每种回答的分数是多少。损失函数:让分高(好的回答)跟分低(坏的回答)的差距大。

强化学习无限迭代:
输入问题 – PPO模型输出(回答的问题) – 过奖励模型 – 输出分数是高是低 – 反馈到PPO模型迭代

奖励模型怎么更新

- 得分要高
- 与标注结果的差异要低
- 泛化能力要高(在不同的下游任务的表现也要做的不错)
SFT:有监督模型
RL:强化学习模型
两个模型差异要小。
版权声明:本文为waltonhuang原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。