3710亿数学令牌,完全开放! Megamath是历史上最大

日期:2025-04-15 浏览:

随着大型模型朝推理时代发展,数学推理能力已成为衡量语言模型智能限制的关键指标。最近,LLM360推出了Megamath:预训练数据的数学偏好最大开源,总计3710亿(371B)代币,涵盖了三个主要领域:网页,代码,高质量的合成数据。报告标题:Megamath:推动开放限制数学语料库技术报告:https://arxiv.org/abs/2504.02807数据集地址:https://hf.co/datasets/llm360/mmegamathgithub代码:尺度上的copusus-corpusus-corpusus-corpuse(120b),但也代表着从“唯一的网页”到“面向企业的”。在短短几天内,数据下载集的数量已达到30,000次以上,并且它继续排名在拥抱趋势列表的顶部。 Megamath Generation Datath为什么我们需要Megamath?而existing主流封闭源数学语料库,例如QWEN-2.5-MATH(1T)和DEEPSEEKMATH(120B)继续显示出很棒的数学能力,研究界的开放资源长期以来一直没有相等的规模和相等的质量数学数据。当前有开放资源数据集(例如OpenWebmath和Finemath)非常小,可以支持更大的模型培训;过度过滤会导致缺乏数学样本量和差异不足。将Megamath和其他数据集的统计数据进行比较以解决这一疾病时,Megamath Team的目标是“努力并tam the对象”,并设计出差异的设计 - 质量×数据差异随着主要的影响而变化,并且需要9个月的时间才能产生完全开放的数学头晕数据基础。 Megamath数据集总计有3710亿个令牌,在以前的经典开源数学数据(例如OpenWebmath)中,这几乎是20倍。数据集分为三个零件:279亿美元。代币:数学丰富的数据281亿代币:与数学相关的代码640亿代币:高质量的合成数据(合成数据),通过下游预培训对Megamath的下游预培训进行筛选,清洁和充分证明,以产生对三分之二的内容和精心设计的各种数据的巨大理解。 “仪器线”确保了出色和质量的数据开发。高质量的Web处理处理数据处理,将Megamath的数据处理完全优化了数学文本处理过程,作者已重新下载并执行了所有99个从2014年到2024年的99个标准爬网文件包,并进行了一系列大型互联网数学工具的大规模工程优化,以至于没有很好地将其逐渐促进了HTML结构,并在远端进行了优化,因此,该组合既不出现,又可以在html结构上进行了优化,并将katex,提取之前的m rathml,以确保数学符号,公式和文本定理在提取过程中得到充分维护。由于不同的提取器的加工速度,该团队对获得道路的两个阶段具有创新性。在第一阶段,我们专注于效率,除非数学样本,否则使用快速提取器拾取 +屏幕。在第二阶段,我们专注于准确性,并使用了包含更多规则的处理器,以进一步消除文本噪声并顺利进行与数学密切相关的换芯数据。它允许Megamath最终维护高度相关和清洁的大型数学文本数据。关于如何训练稳定,准确的文本分类器,团队还发现了种子数据收集引起的偏移分配问题,因此在粗糙筛选的第一阶段之后,筛选的第二阶段是通过提醒dataof seed of Seed训练分类的第二阶段。考虑到目前对研究界对正在进行的预训练和中期培训的广泛需求,他的作者还使用语言模型来更改文本教育价值,再次过滤以获取包含超高教育的数学子集,并将其更加完善,并将其完善到LLM,以使子集远离任何开放的数据集;与现有的Finemath数据的最高质量相比,它可能会大大超过流动性能的4%。该工程优化系列和技术迭代最终形成:Megamath-Web:Megamath-Web-Pro:由LLM优化具有15B令牌的LLM优化的超高质量数学语料库。请记住,记住Megamath代码的多步骤过程的数据过程已被广泛证明,对应于改善模型的数学性能并提高模型使用“开发代码 +执行解决方案”范式来解决模型解决问题的能力。因此,这是数据的重要领域。 Megamath挖掘了与数学相关的代码块V2(最大的现有预培训数据集代码)中的堆栈中,并伴随着先前的Progr方法对每个示例(代理),它使用(1)大型模型评分(LLM评分); 。近年来,巨型合成的三种大规模合成方法,合成数据已成为大型模型训练数据中必不可少的一部分。尤其是在广泛发现和使用传统数据时,合成数据代表了一类可持续和开发的高质量数据资源。通常不会在先前的预训练数据集的开放源中探讨这一点。 Amegamath的团队积极采用合成数据,并在预训练的规模上开放了高质量文本的资源,包括(1)QA问答格式(解决数学问题); (2)综合代码(跨语言转换为Python); (3)文本 +代码相关数据(更接近实际问题解决情况);所有样本都遵循测试质量(包括对代码块的可执行性的验证)。该团队在消融实验中实现了现有合成的全面性能的基准通过继续进行工程设计的立即和疏远。在COT和PAL测试中,性能,Megamath-Lalama-3.2 1b/3b的性能有所提高。 Megamath不仅大小“堆积数据”,而且严格证明喙的每个步骤都是数据的质量。这包括:(1)验证文本获得过程; (2)重复数据删除技术的比较(在机械耐受性的范围内寻求最佳方法来重复数据删除); (3)阈值和训练策略调整的快速文本过滤; (4)SLM纪念数据比例; (5)不同的合成技术。为了测试这些策略,所有实验均经过最初训练 +实验,以验证对流量的综述,以便为最终方法和方法提供足够重要的实验信号。最后,Megamath进行了50多次预训练验证,最后进行了100B前TRA在Llama-3.2(1b 3b)。实验表明,Megamath可以实现15-20%SA的完全改进10个常见的数学活动,例如GSM8K和数学。这些数字确实描述了Megamath数据集对数学推理的重大影响。作者预计作者的愿景是,巨型宣传可以在规模,质量和多样性方面促进一定程度训练的开放资源预培训数据的进一步发展。他还希望Megamath可以成为开发更强大的数学语言模型的坚实起点,并激发了学术和工业界的更大的合作和变化。在更强的推理能力和更高智能限制的过程中移动的过程中,Megamath只是最初的尝试。作为一个致力于开放科学和开放资源的团队,该团队意识到这项工作的挑战和局限性,非常感谢许多灵感D提供了开放社区资源提供的帮助。特别感谢其余的开源团队提供的模型,工具和数据解决方案,例如Hugging Face,DeepSeek和Qwen的长期供应,这使团队有机会继续在巨人的肩膀上进行抛光和改进这项工作。

0
首页
电话
短信
联系