
当前的LLM和人类主层之间仍然存在很大的差距。近年来,LLM(GPT-4,Claude,Gemini等)在代码生成领域取得了重大进步。不仅可以与经典的编程参考点(例如HumanVal)配合使用,而且甚至可以超过某些测试的平均值。这使许多研究人员认为LLM优于人类程序员,尤其是在竞争性编程领域。进一步,在结合外部工具之后,一些模型(例如O3和O4-Mini-High)在CodeForces平台上获得了2700多个ELO评级。这个分数已经达到了更高的0.1%的参赛者。但是,这些简单的定量评估能否真正反映出解决复杂问题的模型的模型?让我们从一些问题开始:LLM确实具有与Wickedhuman玩家相同的推理能力吗?该模型的高得分来自真实的推理能力,有多少结果取决于EX属工具?为了回答以前的问题,包括纽约大学和普林斯顿大学在内的八个机构的调查人员提出了LiveCodeBench Pro,这是一个极具挑战性且竞争激烈的编程参考点。值得一提的是,这项研究中的许多人参加了国际算法比赛。例如,纽约大学的大学生Zhan Zheng代表世界ICPC决赛。 LiveCodeBench Pro包括584个高质量的问题,将于2025年4月25日结束,所有主要事件,例如CodeForces,ICPC系列和IOI系列。这些问题会不断更新,以减少数据的可能污染。此外,所有问题均以奥运会奖章的算法标记,并且通过行分析呈现了模型产生的失败。文档标题:LiveCodeBench Pro:奥林匹亚LLMS奖牌获得者如何竞争编程?论文地址:https://arxiv.org/pdf/2506.11928项目主页:https://livecodebenchpro.com/github:https://github.com/github.com/gavinzhengegoi/gavinzhengegoi/livecodebench- pro this Arive this Arive this Artist inter this Artist inter this Artist inter this Artine conse conse conse conse conse this Edge a kite Edgebench包括kite Edgebent。 O4-Mini-High和DeepSeek R1。根据此数据和评估框架,本文档表明当前的Avant -Garde模型仍然具有重要的不便。在该工具的支持下,最佳性能模型仅通过 @1传递,这意味着缺乏问题。此外,它不能完全用于高级问题(0%)。这些领域仍然可以发挥稳定的作用。此外,PA Classifationra livecodebench Pro还发现,LLMS在通常实现的问题中效果很好,但在推断复杂算法和限制的情况分析时,这甚至可以产生信心和错误的解释。最高模型SC矿石取决于辅助工具的支持,而不是真正的推理技能。 LiveCodebench Pro的出现表明,当前LLM和人类主层之间仍然存在很大的差距。几种算法范式的分析和讨论性能的结果1。大型语言模型在密集的问题和逻辑问题上更好地工作,但在观察和病例中的强烈问题不足。本文显示了六个模型的性能,这些模型有几个编程问题。这项研究发现,人类与不同的问题标签更加一致,但是模型评估显示出由于不同标签而引起的显着差异。主要发现总结如下:密集的知识问题是大规模语言模型的舒适区。在大多数模型中,诸如细分树,图形理论,树木和数据结构之类的标签问题显示出高性能。这些问题通常可以解决良好的模板(例如,树矩阵,消化算法,欧拉路由)。这正是大型语言模型的优势,因为所需的模式在训练数据中实际上显示出来,并且对于更大的语言模型而言,比人类更容易生成句法正确的模板。逻辑密集问题的结果同样好。大规模的语言模型还可以在逻辑密集型类别中使用,例如组合数学,数学,动态编程和二进制搜索。这些类别需要更加盖章的心态(例如,将组合身份应用于组合数学,为动态编程构建状态空间并获得转发功能),并且可以从记忆的脚手架代码中受益。强化观察事项的性能下降。对于游戏理论,问题的具体分析(临时),贪婪算法和建设性问题,大多数模型的分数崩溃SED至1500次,大大低于密集和逻辑类别的性能。解决这些问题通常基于发现新想法。仅凭记忆代码的片段才能获得这一点。大型语言模型发现困难包括讨论。有趣的是,所有模型都错过了分类讨论。除了O4-Mini-High外,每个模型的得分少于1500分,甚至O4-Mini-High也比此类别中其他问题的其他类别低得多。手动检查表明,无法识别和管理限制的限制是所有模型的突出故障模式。交互式问题揭示了模型中的重大弱点。在交互式问题中,O4-min-Alto得分跌至1500年左右,其他模型也显示了战斗。本文的附录中讨论了这种低性能的可能原因问题问题。在算法和错误观察的逻辑误差中,与人类的失败原因和与人的比较的诊断更为普遍,但在实施逻辑错误时却少得多。对于详细的注释和分析,研究人员可以更好地阅读,并特别是有效的O3-MINI模型,并在图3中的树图中介绍结果。概念错误是模型故障的主要原因。 “不正确的思想”分支中最大的红色块表明,在125个标签问题中,O3-Mini比人类参赛者犯了34个算法逻辑错误。这些不是表面的过程错误,而是真正的概念错误。实施是模型的优势。与基础编码有关的指标通常对O3米尼有益。例如,在125个标签问题中,O3-Mini的实施逻辑错误比人少。值得注意的是,所有初始化错误和输出格式都观察到ARe在人类协助的代码中显示的e。此外,审查结果中的细分证实了这一点。它强调的是,O3-Mini中的“执行时间错误”很少,并且很容易在实现级别上出现错误。重要例外:超过空闲时间的限制。 “结果”中的深红色矩形表明“超过无活动时间”的罚款增加。这是从O3-Mini在交互式问题上的独特行为得出的,其大多数演示被认为是“在不活跃的时间”。样本入口失败。该树图强调了在“示例失败”类别中,还有45个O3-Mini实例,可以在这些情况下对解决方案进行编译,但由于所讨论的样本的入口而失败。与人类不同,O3-Mini在妥协之前无法在本地编译或执行样本条目。期望具有终端通话功能的模型(例如O3 Ando4-Mini-High)犯有许多容易发现的雾气阿克斯。总而言之,该分析表明,大语言模型中的代码通常在句法上是可靠的,但是很难构建正确的算法或提取纠正问题观察结果所需的高级别推断。正式注释仅涵盖O3-Mini的介绍,但是初步的手动检查表明,大多数现有的大型语言模型具有相同的错误模式。在戴尔(Dell)的性能中进行了多次尝试(Pass@k),在3。OpenAI报告终端访问和O4-Mini中的CodeFe CES分数为2719分,与从O4-Mini-High评级获得的2116点相比(无终端访问,Pass@1)。这种差异使研究人员研究了终端访问性能和工具调用的影响,以及允许多重做尝试的效果(Pass@k)。如图4所示,随着K值的增加,模型得分显着增加。例如,从1793通过 @1的点点,当K增加到10时收敛至2334点。对于O4-Mini-low和O4-Mini-High,观察到类似的趋势。多个试验的这些好处很重要,但是收敛评分比报告的2719分低400点。因此,我们可以推测剩余的空白主要是由于工具和终端访问的调用的优势。如图5所示,可以看出,五个最大的改进类别中的三个(游戏理论,贪婪算法,分类讨论)通常是密集的观察问题,可以通过假设的结论来解决。以更高的频率进行良好的猜测,重大改进的可能性正确解决了这些问题。比较比较及其推理模型4 4:推理能力的结果可在组合数学方面取得最大的改善,在KN的强化类别中有更大的改进Owlede和在观察中相对改善。研究人员研究了在大规模语言模型中为每个问题标签启用推理功能的效果。具体而言,它将推论模型与与其非参数相对应的模型直接比较,控制模型体系结构,训练数据和其他外部因素的变化,从而将推理的真实影响分开。这种分离对于通过证明Cadenas或其他思维测试来证明扩展方法对每个问题标签的问题解决能力的真正影响很重要。这项研究包括DeepSeek V3和R1的非思想和思想版本,Clalelegí专门比较了UDE 3.7十四行诗。如图6所示,这是两个常规的切割模型,使用非微观和相应的版本。主要发现总结如下:组合数学的最大改进:这两种模型show组合数学的最大改进,DeepSeek-R1得分近1400点比V3高。在知识的密集类别中,这些改进将更大。实现推理显着即兴即兴地改善知识问题,例如数据结构和细分树(例如,在DepSeek中,细分市场问题的分数增加了约700点。这与期望相符,因为我们在我们结构的思维方式类别中的问题是一致的:有趣的是,有趣的是,有趣的问题,贪婪的问题,特定的问题,特定的问题,构造性的问题,构造性的范围,构造性范围,构建性范围,构成范围,构建性范围内的问题,范围内的问题是,构成了很多问题语言模型,即使启用了推理,也经常会遇到困难(例如,理论的改进几乎是最低的。