互联网从业者充电站
04:50 · 2025年8月8日 · 周五
最近两周一直在带团队闭关做 Agent RL 的训练,周末也在加班训模型。今天终于把 32k 上下文的 RL 跑通了,效果涨了 7 个点。中间踩了 verl 和 sglang 的无数个坑,填了一个又来一个,看不见希望,被 verl 伤害过的知道我在说什么。
白天还在想周末能跑通就不错了。晚上突然就拿到结果了。这就是柳暗花明又一村的感觉吧。这个周末终于可以休息了。
Home
Powered by
BroadcastChannel
&
Sepia