热搜词: 2025 2026

AI首胜人类博士, 顶会论文秒变代码! 港大90后开源刷爆8k星

新智元报道

[新智元导读]香港大学黄超团队开源的DeepCode在「论文复现代码」方面,首次在PaperBench测试中超过来自剑桥、伯克利等8所顶尖高校的机器学习博士,并领先ClaudeCode、Cursor等先进的商用代码智能体。

在AI领域,学术论文往往承载了算法、模型架构等方面的最前沿突破。

但想要真正理解论文的核心知识,并成功复现其中的算法和实验结果,却经常面临巨大挑战。

问题的主要症结,在于「关键实现细节」上的缺失!

现实中论文作者通常将复杂的算法逻辑高度抽象化为几行数学公式,省略了真正影响成败的核心细节,比如:

超参数的具体取值范围、训练过程中的技巧性调整、数据预处理的细节步骤、网络初始化策略等。

然而正是关键实现要点上的缺失,导致了理论与实践之间的巨大鸿沟。

就连资深研究员也经常对此束手无策。

怎么破?

近日,香港大学黄超教授团队开源的DeepCode,为这一难题的解决提供了超强的AI利器。

它不仅能够分析论文内容,理解算法逻辑,还可以自动生成可运行的代码。

DeepCode演示

DeepCode视觉交互界面

在基准测试中,DeepCode在复现成功率和代码质量方面表现出众,在多项指标上超过了顶级大学的机器学习博士。

DeepCode自今年7月发布首个版本——DeepCodev1.0.0以来便备受关注,并登上GitHubTrending榜首,斩获近8千星标(截至11月1日数据)。

开源链接:https://github.com/HKUDS/DeepCode

四大基准测试全面领先

研究人员将DeepCode放在以下四大基准测试中进行比较:

结果显示,DeepCode均拿到了最高分。

首超人类专家:75.9%vs72.4%

在OpenAI发布的PaperBench基准测试中,DeepCode的总体准确率为75.9%,超过参与评测的人类专家组72.4%的成绩。

PaperBench的基准测试规格如下:

为确保实验的科学严谨性,研究团队还建立了高质量的人类专家基线。

首先是严格的人类专家资质标准。

这些专家均来自8所顶尖研究型大学的机器学习博士(在读/已毕业博士学位)。

8所大学分别为UCBerkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TUWien、UMassAmherst。

此外,研究团队还采用了严格的人类专家筛选流程:

首先,进行简历预筛选和学术背景验证;

接着,实施机器学习理论知识的标准化测试;

然后,评估Git版本控制和软件工程实践能力;

最后,验证候选人在论文复现任务中的完整技能链。

以上筛选流程确保所有参与者都具备从理论理解到代码实现的全流程能力。

实验环境配置如下:

以上实验结果充分证明:

面对需要深度理解和长期开发的复杂任务,即使人类专家可以充分利用各种AI辅助工具,DeepCode仍能在代码质量和准确性方面达到更高的水平。

这表明DeepCode不仅达到而且超越了专家级的代码复现能力,也意味着自主科学软件工程领域的一个重要里程碑。

优于现有AICoding:84.8%vs58.7%

在同一基准上,研究人员从20篇论文中随机抽取5篇,将DeepCode与当前主流商用代码智能体进行了系统性的性能对比。

在评测中DeepCode展现出明显领先优势:

DeepCode得分84.8%,领先ClaudeCode(58.7%)约26.1个百分点。

为确保测试的公平性和权威性,所有参与评测的商业代码智能体均配备了当前最先进的基础模型:Claude4.5Sonnet-think和GPT5codex-high。

结果提示性能差距主要来自多智能体架构设计,而非单纯的基础模型差异。

此外,在科学代码智能体、基于大模型的智能体两项评测中,DeepCode同样保持领先:

与目前最先进的科学代码复现框架PaperCoder(51.1%)相比,DeepCode的复现率达到了73.5%,提升了22.4个百分点。

这一显著的提升验证了研究团队结合规划、分层任务分解、代码生成和迭代调试的多模块架构优于更简单的基于流水线的方法。

与性能最佳的大模型智能体(43.3%)相比,DeepCode(73.5%)提升了30.2个百分点。

这表明,对于复杂的代码复现任务而言,复杂的代理支架(而不是延长推理时间或更大的模型)至关重要。

DeepCode三大核心能力

Paper2Code(论文→代码)

DeepCode的核心优势在于自动解析复杂数学公式、理解算法逻辑、生成可运行的高质量代码,可以帮助科研人员快速复现SOTA算法、验证理论创新、加速研究进展等。

Paper2Code

Text2Web:(想法→网页)

DeepCode可以智能理解用户意图、自动适配移动端、生成符合设计规范的界面,适用于快速原型验证、MVP产品开发、创业想法落地等场景。

前端实现

Text2Backend:(需求→服务)

DeepCode可以自动选择最佳技术栈、考虑性能和安全性、支持云原生部署,适用于微服务快速开发、遗留系统重构、企业数字化转型等场景。

DeepCode的核心技术框架

DeepCode采用系统化的三阶段框架,将复杂的代码生成任务分解为架构蓝图构建、代码实现和自动验证三个步骤,通过多智能体协作实现从文档到可执行代码的自动转换。

阶段一:架构蓝图构建

该阶段将冗长的文档规范转化为结构化的架构蓝图,通过层次化内容分割、多智能体深度分析、架构蓝图融合三个关键步骤解决长文档理解的挑战。

在多智能体深度分析环节,采用概念智能体、算法智能体两个专业智能体并行深度分析文档的不同维度,确保了既有全局视野又有具体实现细节。

代码规划智能体融合以上两个分析智能体的深度输出,协调高层架构与底层规范,解决潜在的不一致性。

通过智能化的融合过程,最终生成完整的架构蓝图,为后续代码生成提供了详细的指导。

阶段二:自动化代码构建

该阶段基于构建完成的架构蓝图进行代码仓库的系统化构建,通过双重机制设计解决大规模代码库中的跨文件一致性维护和领域知识缺失的核心挑战。

阶段三:动态验证与优化

该阶段构建了一个多层次的质量保障体系,通过静态分析和动态执行的双重验证机制,实现代码从结构完整性到功能正确性的全面保障,形成了自我完善的闭环反馈系统。

AICoding的挑战与思考

目前AI编程工具在代码补全和简单任务上表现良好,但在需要深层理解的复杂任务中仍有不足。

科学论文复现就是一个典型例子——它需要AI理解数学原理,将抽象概念转化为代码实现,并处理各种技术细节。

DeepCode在这个领域的进展表明,通过专门的架构设计,AI可以在特定领域取得较好效果,但通用的深度理解能力仍然存在局限。

如何让AI更好地理解复杂的业务逻辑和技术需求,仍是一个开放性问题。

·从辅助工具到开发伙伴

AI编程工具正在从简单的代码补全向更全面的开发支持演进。

DeepCode展示的从需求分析到代码生成再到质量验证的完整流程,代表了这种发展趋势。

然而,这也带来了新的问题:

如何在AI系统提供更多自主能力的同时,保持开发者对项目的有效控制?

如何确保生成的代码符合团队的编码规范和架构要求?

这些问题需要在技术进步和工程实践中逐步解决。

·VibeCoding的实用性考量

VibeCoding的兴起降低了编程门槛,让更多人能够参与软件开发。

但这种模式也带来了一系列挑战:

DeepCode的验证机制提供了一种思路,但更完善的工程实践和质量标准还需要行业的进一步探索和完善。

作者介绍

李宗蔚

李宗蔚

李宗蔚(1999年生),现为香港大学博士生,师从黄超老师,专注于大模型智能体前沿技术研究。其学术成果入选CIKM2024最具影响力论文榜单。作为开源项目DeepCode的核心贡献者,该项目在GitHub上获得约8,000星标。

李中行

李中行

李中行(1998年生),香港大学访问博士,研究方向为大模型智能体与智慧城市。作为智慧城市大模型UrbanGPT第一作者,其研究成果入选KDD2024及ICDE2022最具影响力论文榜单。同时为开源项目DeepCode核心贡献者,获得约8,000GitHub星标。

郭子睿

郭子睿

郭子睿(2000年生),香港大学博士学生,专注于RAG与智能体技术研究。作为LightRAG和RAG-Anything开源项目的第一作者,其项目在GitHub上累计获得超过32,000星标,已成为图RAG系统领域的主流技术框架之一。

黄超

黄超

黄超,香港大学博士生导师,专注于大语言模型、智能体与图机器学习研究,GoogleScholar引用超过13,000次。其团队开发的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等开源项目累计获得超过70,000GitHub星标,50次登上GitHubTrending(趋势榜)。