模型爆炸奖励的新突破微调:Nabla

日期:2025-04-15 浏览:

本文的作者Liu Zhen的作者是香港中国大学(深圳)数据科学学院的助理教授,Xiao Zhenzhong是Marx Planck-intelligent System Montreal和Mila Institute in Canada和Zhang dinghuai is Microsapt Ats Microsapt研究所的Marx Planck-intelligent System的医生。本文与ICLR 2025集成在一起。在视觉生成领域,传播模型已成为开发高质量图像,视频甚至文本的工具。但是,生成的结果通常与我们的偏好不一致:结果不好,图片和文本不一致等。以及在不同的计算图上基于最大化奖励功能的方法通常被困在过度拟合中MS和缺乏差异。有没有办法保持生成样品的多样性并快速完成维修?我们已经根据生成流网络(Gflownet)提出的Nabla-Gflownet在速度和质量之间达到了这种平衡。纸张标题:通过知识渊博的Gflownets纸张地址的渐变扩散的极佳扩散:https://arxiv.org/abs/2412.077775代码地址:https://github.com/lzzcd001/nabla-gfn使用nabla-flownet(指示)。爆炸过程平衡的前景生成网络流的GFLOWNET图。 “流”到初始节点通过向下游移动的概率并最终转换为终端节点,将其流入不同的节点。与每个端点相对应的流动必须匹配与端点相对应的奖励。 sa ilalim ng balangkas ng生成流网络(gflownet),ang proseso ng henerasyon ng模型pagsasabog ay maaaring ituning bilang iSang iSang na sistema一个hanggang sa dulo“:ang imahe ng ingay na naka-样本Mula sa karaniwang pamamahagi ng ng gaussian ay bilang bilang paunang paunang estado,at ang” daloy nito ay; Ang Proseso ng deno tulad ng iSang管道网络na naglalaan naglalaan ng daloy ng tubig,na naglalaan ng daloy ng daloy ng daloy ng daloy ng daloy ng daloy ng daloy ng daloy在下游节点中的水以及增加噪声的过程可以追溯到每种水流的爆炸式流动的位置。 状况。我们将提出通过派生称为Nabla-DB的平衡条件:这是对数流函数与该剩余过程相对应的。微调模型和前渗透模型的可分割过程分别是。整体是否定过程的其余部分,应满足其余的否定过程,其中β控制奖励函数与预先经验的模型之间的平衡。如果β为零,则保留g过程为零,即微调网络等效于2nd之前的网络。通过较小的转换,我们可以获得我们建议的Nabla-Gflownet丢失的相应功能。残留的Nabla-DB(其中SG是定型梯度操作):正向匹配损失:向后匹配损失:终端匹配损失:对数流量梯度参数化设计。假设上面需要在网络中进行额外的估计。获得不准确结果的单步预言是恒定的重量。因此,我们提出以下参数化:是一个很好的估计值,然后,我们注意到:如果我们预测扩散模型为ε预测的网络参数)。它是一个出色的梯度U-NET参数,单步估计是一个方法图。如果我们仅计算模型参数扩散对的渐变对,则对每个采样路径的每个传输对的直观解释r这个移位对,我们有:第一项是基于学位匹配函数的内部产品(残留扩散模型和梯度奖励估计之间的匹配),第二项是为假定模型正则化的微调模型方法。伪代码实施的实验结果。我们使用以下奖励函数来正确调整网络的稳定传播:美学评分,一种在Laion美学数据集中训练的美学评估奖励功能; HPSV2和Imagerward,这是一种奖励功能,可衡量遵循说明的能力。实验合格的结果表明,通过Nabla-Gflownet微调,我们可以快速获得具有更高奖励的图像,但避免过度拟合。尽管直接有奖励的方法(例如反思和草稿)将很快转换,但Mahuthey很快就会陷入过度拟合。而DDPO是基于传统pol的微调方法的加强研究冰冷的梯度,没有理由获取梯度信息,并且调整速度明显不如其他方法。同时,我们的实验量表明,我们的Nabla-Gflownet将更好地保持生成样品的多样性。通过美学得分奖励功能进行微调的结果(正确调整了200个步骤,捕获了不会崩溃的最佳图像质量模型)。 Nabla-Gfownet的网络微调(与Nabla-DB丢失的残留功能一致)可以产生产生的图像,而不会失去自然性而具有更高的平均奖励。与直接奖励优化方法(例如反思和草稿)相比,Nabla-Gflownet更难陷入过度拟合。审美的奖励量nabla-gfownet标记的奖励量保持了较高的梦想变化测量值(较高意味着更好的变化)和较低的FID分数(较低的速度意味着与以前的漂亮模型更一致)。 TUN的结果HPSV2奖励函数ImageRERD WIDEMARD-BIDENing Insunding indus fircting fimal indunting induntion function功能,我们使用开发斗篷的大纲来严格获得良好的扩散模型奖励方法调整,该方法可以更好地维持多样性和优先级,并在稳定爆炸中表现出比常用爆炸的稳定爆炸中的其他方法的优势。

0
首页
电话
短信
联系