互联网从业者充电站
11:18 · 2025年11月26日 · 周三
Ilya Sutskever说可以引入情绪作为一种价值函数,来做强化学习RL,可以提高训练效率和泛化性,因为人不是完全依赖结果的反馈进行学习的,大量会通过感觉和情绪来提前判断。
想起了字节推荐算法一直想要学“品味”,但一直没有找到对应的指标。这么多年,做了那么多专项,堆了无数资源,但依然眼睁睁看着小红书起来。
Home
Powered by
BroadcastChannel
&
Sepia