Xinzhiyuan报告编辑:Dinghui [Xinzhiyuan简介] OpenAI在SWE-Bench验证计划测试中完成了477个问题,但宣布高分为74.9%。相比之下,Claude de Anthrope完成了500个问题。几天前,在Operai新闻发布会上,Ultraman宣布GPT-5已达到顶峰,并表示这是世界上排名第一的代码功能。但是,在新闻发布会上有一个很大的错误,52.8> 69.1 = 30.8?因此,当年有超过1亿人的歌剧天才创建的桌子在全球范围内流行(左侧)。这种形式在Operai的第一个官方博客中是精确的,但实际上它通过广播世界造成了如此大的错误。除了险恶的方面,另一个重要的事情,但经常被忽视的是,GPT-5在THESWE BANK验证的参考时达到了74.9%的批准率。该分数略高于Anthrope 74.5%的Claude Opus 4.1。这就是将GPT-5变成了当前软件工程任务的参考点。但是等等,这个分数似乎有点困难。 OpenAI并未执行500个试用任务以验证SWE银行业务,而是省略了仅基于477个任务而无法执行并计算得分的23项任务。半分析特别提到了这个问题。人类也“意思是”这个问题的这个问题。 SWE银行总共有500个问题,GPT-5只有477个问题。我省略了这23个问题!和你的对手,克劳德?老实说,已经消除了500个问题。现在大自然已经改变。当然,Openai承认这一点。 GPT-4.1:OpenAI的基础架构无法执行这23个问题,因此我们在“注释”中对其进行了解释。 (有趣的是,他们说Openai的天才无法做到哪些问题?)这23个问题不能解决决策问题的数量为0分,GPT-4.1分数下降了54.6%至52.1%。由此,如果有23个问题完全不正确,500个问题的实际批准率估计约为71.4%(74.9%x 477/500)。请注意,基于500个问题,这是一个非常简化的计算)明显低于Claude Opus 4.1实现的74.5%。应该强调的是,对于GPT-5而言,23个省略的任务并不是“微不足道的”。另一方面,它们是主要验证的最困难的集中问题。根据第三方的说法,大多数模型无法求解经过验证的数据集的任何“ 4小时”任务。该模型在“硬”问题中大大执行,需要一个多小时才能完成。 CLU SOLO DESONNET4(非思想模式),O3和GPT4.1可以完成多个任务4小时(每个33%)。这些极其困难的任务是模型不可或缺的特征的严重证据。如果GPT-5不执行这些任务,就一般功能而言,它可能不会真正超过Claude 4.1。提供信息人类Claude 4.1可能还尝试了这些任务(人类没有肯定该模型的验证任务),因此其74.5%的分数包括所有难题的证据。 GPT-5的74.9%是消除这些“障碍”的结果。由于这种差异引起的主要争议是评估得分的可比性和报告方法的透明度。甚至由Openai本人构建的SWE银行验证的数据集也是如此。半分析认为,为了将模型之间的结果与“公平”比较进行比较,Swebench.com中的官方SWEE银行分类可以是当前模型性能的解释明显。没有“验证”的子集,工具的使用有限(单人bash),并且大多数脚手架内容都是开放和可见的。在品牌测试中,在此前提下的银行,Claude 4 Opus(67.6)5月14日它的工作效果优于GPT-5(65)。下一个问题Tion是什么是SWE银行,“确认”的子集是什么?另外,为什么我需要创建一个额外的SWE银行? SWE银行:AI世界中的“进入程序员大学的参加考试”。可以认为它是AI世界中的“收入大学的入学考试”。所有测试都是真实的代码问题。您想获得高分吗?这不仅仅是解决错误。尽管我们仍然无法引入新的错误,但此标准太严格了。曾几何时,AI只得到20-30分,这是一个可怕的景色。例如,根据SWE银行分类,截至2024年8月5日,编码代理在SWE银行获得了更高的分数。 SWE银行的光得分稍好,达到43%。但是现在,AI令人难以置信,从本质上讲,10个最佳模型的每个模型都可以超过50分。 Operai认为,SWE银行太困难了,无法正确评估模型的功能,因为某些任务根本无法解决。SWE银行测试的每个样本的SWE银行简要介绍是Github的12个开源Python存储库中解决的GitHub问题之一。每个样本都有关联的提取应用程序(PR),其中包括解决方案代码和单元测试以验证代码的准确性。这些单元测试在添加PR解决方案代码之前失败,但是在添加后将其批准,因此它们被称为TESTBA FAIL_T O_PASS。此外,每个样本都有一个关联的PASS_TO_PASS测试,该测试在PR熔化之前和之后通过,以查看PR是否会破坏代码库中存在的无关特征。对于每个SWE银行样本,代理可以恢复GitHub问题的原始文本,即问题的描述并访问代码库。因此,代理必须编辑代码基本文件以解决问题。测试用例未显示在代理中。通过执行Fail_pass和Pass_来评估模型提出的修改版本to_pass测试。如果FAIL_TO_PASS测试通过,则指示该模型解决了问题。如果通过PASS_PASS测试,则意味着该版本不会意外销毁代码库的任何无关部分。只有所有这两套测试通行证,该版本才能完全解决原始的GitHub问题。这是以上。不应该解决错误,您不应引入新的错误。 SWEE银行验证:对手动选择的SWE银行验证是由Operai和Swe Banks的作者于2024年8月发布的SWE银行参考点的人类验证子集。 Operai与Python的93个软件开发人员专家合作,以手动检测SWE Banco的质量。首先,SWE银行测试集的1699年随机样本是“分类的”。四个分数:0:清楚地解释了问题,并且成功解决方案所需的条件也很明显。 1:仍然有一些空白空间可以完成此问题,但是有放松解释必要内容以使解决方案成功的方法。 2:这个问题被模糊地解释了,存在歧义空间,尚不清楚哪些属性具有成功的解决方案。 3:几乎是不可能的,没有更多信息,您需要做什么。如果您写2分和3分,则必须放弃并仅留下0和1分的问题。这种方法导致误报率很高,以消除样品,但有助于提高最终数据集质量的可靠性。然后,提取0和1点问题的500点。这已在Swee Final Bank进行了验证。说到分数,克劳德(Claude)接受了“一般主题”,开放采用了“选定版本”。如何直接比较这些结果?数字背后的故事更有趣。除了误解新闻发布桌的误解外,事实上,它似乎并没有吸引太多的注意力n。如果您将使用这个错误的概念来涵盖SWE-Bench得分,那么Openai是否可以故意甚至在阴谋论中推测?毕竟,如果Anyit隐藏真理,这是使用更大的“真相”分散每个人而不否认它的最佳方法。请参阅:https://x.com/semianalysis_/status/1955028150217478177
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注