科技

港科大联合快手可灵推出GARDO:解决扩散模型Reward Hacking新范式

机器之心5.5万 阅读
港科大联合快手可灵推出GARDO:解决扩散模型Reward Hacking新范式

港科大与快手可灵联合提出GARDO框架,通过门控自适应正则化和多样性感知优化,有效解决扩散模型强化学习中的Reward Hacking问题。该方法在保持高识别率的同时提升图像质量,展现卓越样本效率与泛化能力,为视觉生成领域提供新范式。

港科大联合快手可灵推出GARDO:解决扩散模型Reward Hacking新范式

针对扩散模型强化学习中的Reward Hacking问题,港科大与快手可灵联合提出GARDO框架。该方法通过门控自适应正则化、动态参考模型更新和多样性感知优化,实现样本效率与生成质量的双重提升。

研究团队在SD3.5-Medium和Flux.1-dev等基底模型上验证,GARDO在OCR、Aesthetic等任务中保持高识别率的同时提升图像质量,在未见过的测试指标上展现强鲁棒性。特别在数数任务中,成功实现生成10个以上物体的涌现能力。

核心创新包括:1)门控KL正则化(仅惩罚不可靠样本) 2)自适应参考模型更新(动态提升优化上限) 3)多样性感知优势重塑(平衡质量与多样性)。该框架为视觉生成领域提供全新解决方案,证明精准控制比强力约束更有效。

实验结果显示,GARDO在样本效率、泛化能力及涌现能力方面均超越Flow-GRPO等基线方法,为扩散模型的强化学习应用提供通用技术框架。