对“噪声”增强的研究带来了改进?最新的研究

日期:2025-04-15 浏览:

“推理”已成为语言模型的下一个主要边界,并且最近在学术界和行业方面发展了迅速的发展。在探索过程中,一个主要问题是:改善模型识别性能有效的是什么?什么是无效的? DeepSeek -R1已经提到:“我们发现,在这些蒸馏模型中应用加固可以实现重大的改进。” 3月20日,论文“在小型LLM中进行推理的加强研究:什么是有效的,什么无效”,“ RE” RL对蒸馏模型有效。尽管这些论文的结论表明,对加强研究的研究带来了重大的绩效提高,但来自图宾根大学和剑桥大学的研究人员发现,许多导致强化研究的“改进”只能是噪音。纸张标题:语言模型推理的重大发展:可重复性纸的陷阱和路径linK:https://arxiv.org/pdf/2504.07086“通过增加推理领域的经验陈述的数量来启用,我们进行了严格的调查,严格的调查对羞耻感进行了严格的调查,集中于2024年;在统计上的重要性;在统计上,一些使用培训的模型通常不得为较弱,而不是在较弱的改善中进行的改进,而不是成就了,而这些型号的进步是不相同的,而这些动机是在范围内进行的。基准很好地审查了这种不稳定性的原因,包括差异,调整的解码,框架分析和硬件异质性,我们表明这些因素会严重损害结论,如果不仔细地控制了最佳技能。在某些情况下,Bensits插曲已扩大,并且更好地检查标准对于了解哪些技术确实有效是必要的。此外,这不仅是强化和理解模型的问题,而且我认为LLM研究通常会受到影响。 “探索设计空间:最重要的是什么?内核(TOP_P)(请参见表1),尽管以前的研究已经评估了这些抽样参数对许多选项的影响,并系统地编码这些设计选项会评估这些设计选项如何影响和突出差异的来源,并突出了最大程度地评估种子的差异的差异。在基准实践中,这通常没有引起人们的注意,而统计的严格性(例如使用错误栏和许多运行),通常依靠单种跑步,掩盖了潜在的变化。每个都有20个独立评论。结果如图2所示。可以看出,Pass@1值的通常偏差非常高,标准偏差从5%的点数到15点百分比的标准偏差。在AIME 24和AMC 23中,这个问题尤其严重,分别为30和40个测试样品。问题只有一个更改会更改@1升2.5-3.3个百分点。由硬件和软件因素引起的变化,这些因素是硬件和框架评估等不清楚的因素也会导致性能差异,但很少被认可。通常在异源系统上测试模型,并使用各种工具链进行评估。硬件研究人员已经在五个不同的计算集群中评估了相同的模型,每个群集具有不同类型的GPU和内存调整。如图8所示,在AIME 24中,OpenRS-1.5B性能的差异高达8%,Deptseek Performance-R1-Distill-差异7b为6%,在AMC 23上观察到类似的趋势。众所周知,即使许多骨头平均水平,也可能对基准的准确性产生重大影响。在不同的Python框架下进行分析以评估这种效果,研究人员比较了LightEval和评估策略,同时维护所有其他变量固定的所有其他变量:模型,数据集,硬件,专用参数和随机骨骼(每个模型3)。为了进行公平的比较,研究人员回顾了DeepSeek -R1 -Disill -1.5B和S1.1-7B模型,默认温度和TOP_P参数值。为了提高稳定性,本文提供了三个骨头的结果。如表2所示,框架引起的差异通常很小(1-2pp),但仍会影响紧密簇中的SA模型排名。格式的长度和上下文的长度会影响最大输出令牌。如图9所示,MAX_NEW_TOKENS的减少将减慢性能,尤其是在长期以来多发性硬化症。这种敏感性根据模型和数据集而有所不同。由于这种设置降低了成本,因此可能导致过早停止,从而导致错误的答案。及时格式。及时格式对准确性有重大影响。如图10所示,在使用绝对及时的数学和本地聊天模板时,该模型的表现最好。删除模板会导致性能恶化,尤其是对于直接音调模型。如何解决(一个级别)?答案是本节中的“分析标准化”,研究人员的标准是审查的情节,并对现有方法进行了全面审查。主要结论如下:大多数DeepSeek R1-Distill模型模型变体通过增强研究(RL)训练(RL)未能显着提高性能(除了DeepScaler),这表明仍然缺乏可靠且测量的Tonic训练方案。尽管加强方法通常可以显着改善基础模型的性能,教学调整甚至比刺激培训方法(开放推理零)更好,这再次表明仍然缺乏可靠且测量的教育培训方案。对粉状模型的轨迹进行了微调,可以实现基准的重大和一般改进,并成功地通过超时的稳定性和成熟度作为训练范式进行了复制。当前基于增强技术的技术非常容易过度合适,这强调了对更严格的外观基准的需求。相比之下,SFT模型(管理微调)显示出更强的总体和稳定性功能。较长的响应与错误的可能性增加有关,并且响应的长度是共识@K中的实用启发式,以识别低信心或失败的产生。准编码方法似乎足以获得模型在有效构想路径上的全部分布,否认了假设的变化。清醒观察:结果表3列出了实验结果,并研究了结果的不同方面。研究人员在标准评估环境中对数学推理的六个基准进行了建模,并报告了这些模型的Pass@1(含义±标准偏差)的准确性。在AIME和AMC基准中,使用了十个随机骨头的平均值,而平均三个随机骨头的平均骨头用于其他基准测试。研究人员已经采用了LightEval框架,并能够为每个程序做最佳的超参数。应该指出的是,除了数学模型的上下文的长度之外,其他模型的上下文的长度设置为32768,以及适当的USE Prompt Prompt模板。同时,基于加固研究(RL)并辞职的模型变体对其各自的BA进行了评估。SE模型或教学模型。主要结论如下:增强研究方法未能显着提高性能。在理解的道路上,SFT显示出重要的侵犯能力。可以再次复制发现的现象吗?对研究人员的详细综述进一步研究了最近的两个现象,以证明它们是否在实验中复制:响应和性能的长度之间的关系。在培训之后,重点是推断,如果响应的变化减少。 1。错误响应更长吗?较长的响应是否意味着错误的答案更有可能?他们比较了正确的响应长度和错误答案的分布式SA集(AIME24,AIME25,AMC23,MATH500,MINERVA和OLYMPIADBENCE),并平均每个模型的随机骨头。图11显示了每种种子的平均响应数与响应长度的直方图。 dATA显示出明确的趋势:较短的响应更可能是正确的,而较长的响应逐渐显示出更高的错误率。这种模式类似于所有骨骼,尤其是在10,000多个令牌的响应中。研究人员问了两个基本问题:Q1:该模型适合RL和SFT模型?评论的结果表明,这种趋势在RL和SFT模型中都存在。特别是:这种效果在RL训练模型(左图显示)中更为重要。SFT训练模型(右图显示)此效果相对较弱。 QWEN 2.5数学基本模型还显示了略有相关性,但是在R1 - disill和随后的RL Q2训练模型中,这种关系更为突出。这种现象主要是由截断或不完全反应引起的吗?尽管响应接近32000的令牌限制几乎总是不正确(是由上下文长度限制引起的),但这种趋势仍然较短,甚至更短 - 较长的响应是与更高的错误可能性相关。 2。推理练习有差异不同吗?为了验证这些主张,研究人员将经过训练的RL模型的通过@K的性能与所有数据集(对于K∈1、5、10)及其相应的基础模型(例如,DeepSeek -R1 -disill -disill -qwen -1.5b)进行了比较。 Ninahahtable 4是与主模型关联的每个过程的通过@K更改。结果表明,无需崩溃。通过@1的改进通常伴随着一般改进@K,尽管改进不同指标的范围有所不同。在通过@k绩效的情况下,这种拒绝通常与发现@1的偶然性同时发生的,而不是独立的发现并不支持差异下降的假设。

0
首页
电话
短信
联系