Critic - 搜索 News

来自MSN19 天

如何评价 DeepSeek 正式发布的 DeepSeek-R1与DeepSeek-R1-Zero模型？

非常干净强大的工作，从RL训练角度进一步证明了以下事实： 1. RL 不需要fancy复杂的算法，简单的critic-free 的Policy gradient类在算法至少在llm setting下已经完全够用。并发/diverse样本量，才是RL 训练效果的关键。我相信grpo换成REINFORCE也会带来同样的效果。R1-zero ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点