首页/文章/ 详情

数学推理能力超过OpenAI,上海交大开源大语言模型Abel荣登榜首

10小时前浏览18
 

摘要:

📝 上海交大GAIR团队表示Abel的创建是为了向Niels Henrik Abel致敬,他在代数和分析方面的开创性工作,Abel模型在这方面也相对更好。不过,还有很长的路要走🏃‍♂️🏃‍♀️🏁🏃‍♂️🏃‍♀️.

本文展示了:

  • 没有工具

  • 无需继续预训练

  • 无奖励模型

  • 无RLHF

  • 仅使用SFT

GAIR实验室在GSM8k(83.62)和MATH(28.26)基准测试上,在开源LLM(不使用外部工具)中建立了新的最先进的性能。具体而言:

  • GSM8K的性能为83.62%,超过了顶级机型,如PaLM-1、Minerva(谷歌)、Claude instant(Anthropic)、ChatGPT(OpenAI),仅落后谷歌最新机型PaLM-2-Flan 1%。

  • 在极具挑战性的数学竞赛问题上,它的准确率达到28.26%(而GPT4的准确率为42.5%),与其他开源模型相比,它保持着显著的领先优势,超过了之前最好的开源模型5.56%。

  • 7B和13B模型在GSM8K和MATH中都实现了开源模型性能的历史性里程碑。

  • GAIRMath Abel在前十名中获得了3个位置,是榜单中唯一一个由大学领导的项目(其他项目要么是明星初创公司,要么是大型科技公司)。

  • 使用Abel的方法,不仅在GSM8K和MATH上取得了优异的结果,而且当获得一个新的数据集(TALSCQ-EN)时,不用付出太多努力就迅速获得了最先进的(SOTA)性能,超过了价值数十亿美元的商业模型MathGPT和GPT4。

GAIR实验室证明:

  • SFT的能力被严重低估了,研究人员应该以应有的尊重和谨慎对待SFT

  • 只有通过SFT才能获得非凡的数学问题解决能力,这在未来的探索中激发了更多想象力。

模型和性能:

“()”中的数字表示对以前的SOTA开源方法(即WizardMath)的改进。

 

在Abel中,GAIR团队首次提出了家长监督,一种监督微调的保姆策略,家长监督不限于任何特定的数据处理方法。相反,它定义了数据处理哲学,应该指导生成人工智能(GAI)时代的监督微调。在GAI时代,数据结构工程已经成为一种新的范式。在这种范式中,微调数据的处理方式会显著影响经过训练的GAI的性能。GAIR实验室称预计社区中会有越来越多的研究关注这种数据处理哲学。

父母监督的原则强调谨慎和谨慎地对待监督下的微调。这类似于鼓励父母教育孩子的方式。不同类型的数据,以及它们的表示格式(例如,逐步推理、迭代精化),可以被比作不同的教育方法。正如父母谨慎选择最有效的方法来指导他们的孩子一样,GAI从业者也应该谨慎选择最高效的数据处理方法来更好地指导他们的LLM。

此外,“数据越多越好”的哲学并不总是成立的。注释样本的质量和相关性往往超过其数量。SFT中使用的训练样本不仅应该给出正确的答案,还应该指导模型如何根据LLM的知识得出正确的答案。此外,如果LLM的知识不足以回答问题,家长监督应介入,及时解决知识差距。

数学推理排行榜:

🔒 代表专有型号,而🌍 代表开源模型🎓 建议模型开发由大学(而不是公司)领导

只考虑模型而不使用任何工具(例如Python)

 

算例演示:

1. 鸡兔同笼问题

Brown有牛和鸡一共60只,鸡的数量是牛的两倍,一共有多少条腿?

我们先来看看LLaMA的回答:

 

再来看看Abel的回答:

 

LLaMA出现了明显的逻辑判断错误,而Abel则正确回答了问题。

2. 另外一个数学问题:

2,21,6,11和30的中位数与平均数的和是多少?

先来看看LLaMA的回答:

 

再来看看Abel的回答

 

结果表明Abel成功做出了这道题目,而LLaMA又出现了失误。

团队简介:

Abel由上海交通大学GAIR(生成式人工智能研究组)团队打造。

该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。

该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。

对这个数学模型感兴趣的读者,可以到GitHub页面详细了解。

来源:STEM与计算机方法
ACTpython理论自动驾驶数字孪生人工智能
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-11-01
最近编辑:10小时前
江野
博士 等春风得意,等时间嘉许。
获赞 56粉丝 83文章 153课程 0
点赞
收藏
作者推荐

实验力学论文分享——计算力学的benchmark

文一: 近场动力学模型验证的基准实验研究进展摘要:近场动力学(PD)是经典连续介质力学(CCM)的非局部推广,允许不连续的位移场,为建模与模拟断裂力学应用提供了一个有吸引力的框架。然而,PD 模型引入了新的模型参数,如所谓的水平参数。地平线的长度尺度是一个先验的未知数,需要确定。此外,由于 PD 模型的非局部性质,边界条件的处理也存在问题。因此,根据实验观测结果来标定新的近场动力学参数和评估模型的充分性就变得至关重要。本文的目的是审查和目录可用的实验装置,已用于校准和验证近场动力学的日期。我们已经确定和分析了总共39个出版物,比较基于近场动力学的模拟结果与实验数据。特别是,我们已经系统地报告,只要可能,无论是相对误差或 R 平方系数。在铝和钢材的实验中,得到了最佳的相关性。还考虑了基于成像技术的实验。然而,图像提供了大量的信息,在这种情况下,它们与模拟的比较是非常重要的。总共查明和总结了六份出版物,其中介绍了从近场动力学模拟中提取额外属性的数值技术,以便于与基于图像的数据进行比较。 图:用于研究金属断裂的紧凑拉伸(CT)试验草图,并由ASTM E647-00和ISO 7539-6标准化。具有四个孔和b修改的几何形状的CT张力试验 图:使用扩展连接部件标记算法的球形压头撞击后薄圆盘碎片的图示文二: 混凝土断裂扩展研究综述:模型、方法和基准试验摘要:准脆性材料(如混凝土)断裂演化的严格表征需要计算密集型方法,而且大多是复杂的方法。然而,计算能力的进步和数值方法的效率增加了人们对混凝土断裂数值模拟的兴趣。本文首先从宏观或细观形式的断裂理论/模型的不同角度回顾了混凝土断裂,并对现有的数值方法进行了深入的讨论。接下来,汇编了一套不同的经典和新开发的混凝土断裂试验,并对其进行了系统的批评,同时对过去和不断发展的文献进行了数值模拟。这是一个最先进的基准,适用于验证新出现的数值模型和/或断裂理论。然后,讨论了控制混凝土结构构件标称强度的尺寸效应规律,并分析了现有的关于混合料设计对混凝土断裂响应影响的研究。基于对数值模型、断裂理论、编制的实验基准/试验以及控制混凝土断裂的因素的综述的结论,建立了文献空白,并强调了未来的展望。最后,本文基于三维自适应广义有限元方法建立了一系列数值模型,验证了其模拟各种基准问题的混合模式混凝土断裂轨迹的能力。建立了GFEM在网格自适应性、使用粗糙和非结构化网格的能力(与大多数现有模型使用昂贵的离散化相反)以及产生稳定的生成方程系统方面的优势。 图:将形态学直接投影到基于非均质模型的有限元网格中。 图:混合模式断裂试验几何形状。文三: 固体力学与应用数学中基准问题的选择摘要:在这篇文章中,我们提供了计算固体力学领域的基准问题。详细地说,我们将经典的长石描述为弹性、不可压缩性、材料界面、薄结构和fnite变形时的塑性。为此,我们描述了基准的明确设置,并介绍了数值方案。对于计算,各个参与小组使用不同的(混合的)伽辽金有限元和等几何分析公式。一些程序明代码是开源的。输出是根据精心设计的感兴趣的量来衡量的,这些量允许对其他模型、离散化和实现进行比较。此外,网格重构研究显示了计算的稳健性。本文介绍了基准,这些基准是在德国研究基金会的优先计划“SPP 1748固体力学中的可靠模拟技术——非标准离散化方法、力学和数学分析的发展”中开发的 图:库克薄膜(所有尺寸单位为mm) 图:主应力大小的云图 图:结果的总体云图左: 位移大小在固定的网格4 × 4 × 4元素; 右: 冯米塞斯应力在8 × 8 × 8网格的 p = 8,几何分级向牵引边界文四: 约束环试验的流固耦合力学建模: COST TU1404基准摘要:约束环试验属于估计糊状物、莫塔尔或混凝土混合物开裂趋势的传统方法。该试验涉及潮湿-机械相互作用,以及几种现象的复杂相互作用,如自收缩、干燥收缩、基本蠕变和干燥蠕变,以及拉伸强度和断裂能的演变。本文中描述的基准依赖于通过成本行动TU1404的扩展循环测试计划(RRT+)获得的大量实验数据集。六个小组参与了他们的模拟模型。产生了一系列输出,从棱镜的质量损失到其轴向变形,再到环中的环向应力/应变演变。四个小组还量化了干燥和应变集中造成的损害。所有模型在质量损失方面都表现出优异的性能,而应变验证显示出更高的分散性和几个因素的影响。该基准证明了所用模型的高能力,并强调了根据现有实验数据进行校准的强大作用。 图:环形测试的设置(由E.Roziére提供) 图:环形测试的布局,从上到下进行干燥 图:损伤演变文五: 脆性断裂中裂纹扩展的三维基准问题摘要:我们提出了一个基于实验的脆性断裂全三维基准问题,并在相场模型的背景下进行了验证。该示例包括对具有不同倾角的尖锐V形缺口的石墨试样进行的一系列四点弯曲试验。这种简单的设置导致了混合模式(I+II+III)加载,这导致了复杂但可稳定再现的裂纹表面。所提出的问题非常适合于脆性断裂的基准数值方法,并允许对破坏载荷和传播路径以及起始角和断裂表面进行定量比较。为了评估裂纹表面,提供了断裂试样的基于图像的三维模型以及实验和数值结果。此外,还给出了实测破坏荷载和计算荷载-位移曲线。为了证明基准问题的适用性,我们表明,对于基于有限元方法和多级hp精化的相场模型,可以很好地再现复杂的裂纹表面和破坏载荷。 图:断裂30照片◦30的样本和生成的点云◦和45◦ 几何图形。样本上撒上白色,以增强特征提取算法的表面感知 图:具有起始角α和θ定义的半断裂试样*旋转坐标系和裂纹萌生曲线s(t),左侧有两个评估点a和b。a和b中的切向平面(蓝色)以及α和θ*相对于V形缺口平分线平面(橙色)的定义,右侧。来源:STEM与计算机方法

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈