RL 的时候训练了几个 Step

你好，很荣幸看到这篇工作！
在论文中我没有找到这篇工作的 RL 应该训练多少个 step，我看到文后的 7B图像画了大概 2500 个 step 多一些，但是我跑了 2750 个 step 后结果并不是很好，看到 shell 脚本里写的 10 个 epoch， 5000个 step。所以想问一下该工作 对于 3B、7B、14B 分别一共要训多少个step？

期待您的回复，谢谢！