数学推理能力超过OpenAI,上海交大开源大语言模型Abel荣登榜首
摘要:📝 上海交大GAIR团队表示Abel的创建是为了向Niels Henrik Abel致敬,他在代数和分析方面的开创性工作,Abel模型在这方面也相对更好。不过,还有很长的路要走🏃♂️🏃♀️🏁🏃♂️🏃♀️.本文展示了:没有工具无需继续预训练无奖励模型无RLHF仅使用SFTGAIR实验室在GSM8k(83.62)和MATH(28.26)基准测试上,在开源LLM(不使用外部工具)中建立了新的最先进的性能。具体而言:GSM8K的性能为83.62%,超过了顶级机型,如PaLM-1、Minerva(谷歌)、Claude instant(Anthropic)、ChatGPT(OpenAI),仅落后谷歌最新机型PaLM-2-Flan 1%。在极具挑战性的数学竞赛问题上,它的准确率达到28.26%(而GPT4的准确率为42.5%),与其他开源模型相比,它保持着显著的领先优势,超过了之前最好的开源模型5.56%。7B和13B模型在GSM8K和MATH中都实现了开源模型性能的历史性里程碑。GAIRMath Abel在前十名中获得了3个位置,是榜单中唯一一个由大学领导的项目(其他项目要么是明星初创公司,要么是大型科技公司)。使用Abel的方法,不仅在GSM8K和MATH上取得了优异的结果,而且当获得一个新的数据集(TALSCQ-EN)时,不用付出太多努力就迅速获得了最先进的(SOTA)性能,超过了价值数十亿美元的商业模型MathGPT和GPT4。GAIR实验室证明:SFT的能力被严重低估了,研究人员应该以应有的尊重和谨慎对待SFT只有通过SFT才能获得非凡的数学问题解决能力,这在未来的探索中激发了更多想象力。模型和性能:“()”中的数字表示对以前的SOTA开源方法(即WizardMath)的改进。 在Abel中,GAIR团队首次提出了家长监督,一种监督微调的保姆策略,家长监督不限于任何特定的数据处理方法。相反,它定义了数据处理哲学,应该指导生成人工智能(GAI)时代的监督微调。在GAI时代,数据结构工程已经成为一种新的范式。在这种范式中,微调数据的处理方式会显著影响经过训练的GAI的性能。GAIR实验室称预计社区中会有越来越多的研究关注这种数据处理哲学。父母监督的原则强调谨慎和谨慎地对待监督下的微调。这类似于鼓励父母教育孩子的方式。不同类型的数据,以及它们的表示格式(例如,逐步推理、迭代精化),可以被比作不同的教育方法。正如父母谨慎选择最有效的方法来指导他们的孩子一样,GAI从业者也应该谨慎选择最高效的数据处理方法来更好地指导他们的LLM。此外,“数据越多越好”的哲学并不总是成立的。注释样本的质量和相关性往往超过其数量。SFT中使用的训练样本不仅应该给出正确的答案,还应该指导模型如何根据LLM的知识得出正确的答案。此外,如果LLM的知识不足以回答问题,家长监督应介入,及时解决知识差距。数学推理排行榜:🔒 代表专有型号,而🌍 代表开源模型🎓 建议模型开发由大学(而不是公司)领导只考虑模型而不使用任何工具(例如Python) 算例演示:1. 鸡兔同笼问题Brown有牛和鸡一共60只,鸡的数量是牛的两倍,一共有多少条腿?我们先来看看LLaMA的回答: 再来看看Abel的回答: LLaMA出现了明显的逻辑判断错误,而Abel则正确回答了问题。2. 另外一个数学问题:2,21,6,11和30的中位数与平均数的和是多少?先来看看LLaMA的回答: 再来看看Abel的回答 结果表明Abel成功做出了这道题目,而LLaMA又出现了失误。团队简介:Abel由上海交通大学GAIR(生成式人工智能研究组)团队打造。该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。对这个数学模型感兴趣的读者,可以到GitHub页面详细了解。来源:STEM与计算机方法