你好,很荣幸看到这篇工作! 在论文中我没有找到这篇工作的 RL 应该训练多少个 step,我看到文后的 7B图像画了大概 2500 个 step 多一些,但是我跑了 2750 个 step 后结果并不是很好,看到 shell 脚本里写的 10 个 epoch, 5000个 step。所以想问一下该工作 对于 3B、7B、14B 分别一共要训多少个step? 期待您的回复,谢谢!
你好,很荣幸看到这篇工作!
在论文中我没有找到这篇工作的 RL 应该训练多少个 step,我看到文后的 7B图像画了大概 2500 个 step 多一些,但是我跑了 2750 个 step 后结果并不是很好,看到 shell 脚本里写的 10 个 epoch, 5000个 step。所以想问一下该工作 对于 3B、7B、14B 分别一共要训多少个step?
期待您的回复,谢谢!