模型更多

描述

从「模仿」到「推理」在传统的「监督式微调(SFT)」中，你的模型更多是从标注良好的数据中习得一对一的映射关系——它们擅长在特定情境下复刻已有样本的答案，却并不擅长真正的推理和探索。

文章

它引入了强化学习的激励机制，让你的模型不止是「背题库」，而是不断尝试、反思和优化推理过程。

文章