#Reward Hacking - 头条网站

#Reward Hacking

1 篇文章

港科大联合快手可灵推出GARDO:解决扩散模型Reward Hacking新范式

港科大联合快手可灵推出GARDO:解决扩散模型Reward Hacking新范式

港科大与快手可灵联合提出GARDO框架,通过门控自适应正则化和多样性感知优化,有效解决扩散模型强化学习中的Reward Hacking问题。该方法在保持高识别率的同时提升图像质量,展现卓越样本效率与泛化能力,为视觉生成领域提供新范式。

扩散模型强化学习Reward Hacking+2
机器之心2026-02-01 17:47:375.5万