原始的grpo为什么为倾向于给出更长输出
Search
GRPO 算法 长序列 生成 原因 38 results
响应长度偏差
训练过程中的其他影响因素
- 训练窗口的影响:如果训练窗口过短,对于本身输出长度较长的模型,会导致很多思考长度“撞墙”,从而出现 reward 下降问题。为了适应更长的输出长度,训练窗口需要适当增加,但这也会导致训练效率降低。
- 超参数的影响:例如学习率较大时,模型输出长度增加会更显著。而较大的 batch size 会使模型参数更新趋于保守,但其输出长度在相同训练步数下上升更为明显。