频率权重
分类
配置
为了评估不同频率权重配置的效果,需要设计合适的代理任务(ProxyTask)。
文章
分布
图3和图4分别展示了Llama-2-7b和MiniCPM-2b上,各方法的频率权重分布。
文章
w_i
提出统一的频率权重框架,将PE、PI、NTK、YaRN等现有RoPE扩展方法统一表示为θ_i=w_i·b^{-2i/d}的形式,揭示了不同方法本质上仅是频率权重w_i的差异。
文章
研究亮点提出统一的频率权重框架,将PE、PI、NTK、YaRN等现有RoPE扩展方法统一表示为θ_i=w_i·b^{-2i/d}的形式,揭示了不同方法本质上仅是频率权重w_i的差异。
文章
效果
利用贝叶斯优化自动搜索最优频率权重,完全无需训练或微调即可扩展LLM的上下文长度,大幅降低了长度泛化的计算成本。
文章
提出统一的频率权重框架,将PE、PI、NTK、YaRN等现有RoPE扩展方法统一表示为θ_i=w_i·b^{-2i/d}的形式,揭示了不同方法本质上仅是频率权重w_i的差异。
文章