登录
更多
已读文章
名词
现象
观点
问题
政要
模型更多
描述
从「模仿」到「推理」在传统的「监督式微调(SFT)」中,你的
模型更多
是从标注良好的数据中习得一对一的映射关系——它们擅长在特定情境下复刻已有样本的答案,却并不擅长真正的推理和探索。
文章
它引入了强化学习的激励机制,让你的模型不止是「背题库」,而是不断尝试、反思和优化推理过程。
文章