OpenAI最新研究: 当前AI模型仍无法媲美人类程序员

发布日期：2025-03-06 08:18 点击次数：109

2月24日消息，尽管OpenAI首席执行官萨姆・奥尔特曼（SamAltman）坚称，到今年年底，人工智能模型将能够超越“低级别”软件工程师，但该公司研究人员的最新研究却表明，即使是目前最先进的AI模型，仍无法与人类程序员相媲美。

研究人员在一篇新论文中指出，即使是前沿模型——即那些最具创新性和突破性的AI系统——“仍然无法解决大多数”编程任务。为此，研究人员开发了一个名为SWE-Lancer的新基准测试工具，该工具基于自由职业者网站Upwork上的1400多个软件工程任务。通过这一基准测试，OpenAI对三款大型语言模型（LLMs）进行了测试，分别是其自身的o1推理模型、旗舰产品GPT-4o，以及Anthropic公司的Claude3.5Sonnet。

具体而言，这一新基准测试评估了这些LLMs在处理Upwork上的两类任务时的表现：一类是个体任务，涉及修复漏洞并实施修复措施；另一类是管理任务，要求模型从更宏观的角度做出更高层次的决策。值得注意的是，在测试过程中，这些模型被禁止访问互联网，因此它们无法直接抄袭网上已有的类似答案。

这些模型所承担的任务在Upwork上的价值累计可达数十万美元，但它们仅能解决一些表面的软件问题，却无法在大型项目中真正找到漏洞及其根源。这种“半成品”的解决方案，对于与AI有过合作经验的人来说并不陌生——AI擅长输出听起来自信满满的信息，但在仔细审查时往往漏洞百出。

尽管论文指出，这三款LLMs通常能够“远快于人类”地完成任务，但它们却无法理解漏洞的广泛性及其背景，从而导致解决方案“错误或不够全面”。

研究人员解释称，Claude3.5Sonnet的表现优于另外两款OpenAI模型，并且在测试中“赚取”的金额也超过了o1和GPT-4o。然而，其大多数答案仍然是错误的。研究人员指出，任何模型若想被真正用于实际编程任务，都需要具备“更高的可靠性”。

简而言之，该论文似乎表明，尽管这些前沿模型能够快速地处理一些细节任务，但它们在处理这些任务时的技能水平，仍远远不及人类工程师。

尽管近年来这些大型语言模型取得了快速的发展，并且未来还会继续进步，但它们目前在软件工程领域的技能水平仍不足以取代人类。然而IT之家注意到，这似乎并未阻止一些首席执行官解雇人类程序员，转而使用这些尚未成熟的AI模型。（远洋）

上一篇：什么是分时图攻击性量峰（图解）

下一篇：美国副总统不请自来，宣布计划访问格陵兰岛，丹麦反对也没用