#Reward Hacking - 头条网站

港科大与快手可灵联合提出GARDO框架，通过门控自适应正则化和多样性感知优化，有效解决扩散模型强化学习中的Reward Hacking问题。该方法在保持高识别率的同时提升图像质量，展现卓越样本效率与泛化能力，为视觉生成领域提供新范式。

机器之心2026-02-01 17:47:375.5万