登录

模型更多


描述

从「模仿」到「推理」在传统的「监督式微调(SFT)」中,你的模型更多是从标注良好的数据中习得一对一的映射关系——它们擅长在特定情境下复刻已有样本的答案,却并不擅长真正的推理和探索。
文章

它引入了强化学习的激励机制,让你的模型不止是「背题库」,而是不断尝试、反思和优化推理过程。
文章