发布日期:2024-12-08 12:38 点击次数:98
婷婷社区
代码大模子越来越卷,评估 AI 编程水平的"考卷"也被动升级。12 月 5 日,字节豆包大模子团队开源最新代码大模子评估基准 FullStack Bench,在业界初度囊括编程全栈时候中超 11 类真实场景,障翳 16 种编程言语,包含 3374 个问题,比拟此前基准,不错更灵验地评估大模子在现实天下中的代码配置才能。
代码评估基准是估量大模子编程才能的圭臬器具,亦然股东模子优化的要津驱能源。不外,面前的代码评估基准障翳的诈欺类型和编程言语较为有限,难以响应真实天下中代码配置场景的种种性和复杂性。
比如,主流代码评测集 HumanEval 和 MBPP 中近 80% 数据只聚焦基础编程和高等编程问题;DS-1000 中 95% 数据集会会于数据分析和机器学习任务,且仅对 Python 言语进行评测;xCodeEval 虽障翳多项任务,但基本局限于高等编程和数学领域。
因此,字节豆包大模子团队与 M-A-P 开源社区鸠合提议 FullStack Bench,一个专注于全栈编程和多言语编程的代码评估数据集。为囊括在真实全栈配置中触及的种种诈欺场景,酌量团队从公共最大的花式员时候问答社区 Stack Overflow 中立时抽取了 50 万个问题进行分析,筛选出占总问题数前 88.1% 的诈欺领域,并对其散布作念了相宜转机来保证每个领域的鲁棒性,最终酿成了 FullStack Bench 热心的跨越 11 种诈欺场景及散布比例。
FullStack Bench 包含 3374 个问题,每个问题均包括题目面容、参考处治决策及单位测试用例,共计 15168 个单位测试。为保证评估准确性,问题试验均由联系领域的编程人人策画,并经 AI 和东谈主工考证进行质地复核。在最先数据集构建后,团队笔据主流代码大模子测试服从,按问题难度、空匮性和可解性对数据质地进行了交叉评估和进一步完善。
FullStack Bench 数据集组成情况
为绵薄配置者对大模子代码才能进行系统性测试,豆包大模子团队还开源了一款高效的代码沙盒推论器具—— SandboxFusion,用于评估来自不同言语的不同编程任务。除了 FullStack Bench,SandboxFusion 还兼容跨越 10 种庸碌使用的代码评估数据集,支握 23 种编程言语。配置者在单功绩器上即可纵容部署 SandboxFusion,也可径直在 GitHub 上进行体验。
发布评测基准及沙盒的同期,字节代码大模子也初度曝光。酌量中,豆包大模子团队对公共 20 余款代码大模子及言语大模子的编程发扬进行了评测(详见论文),其中包括未裸露过的豆包代码大模子 Doubao-Coder。
近半年婷婷社区,字节在代码大模子领域进展速即,本年 6 月字节发布了由自研代码基座模子复古的 AI 编程助手豆包 MarsCode,当今每月为用户孝顺百万量级代码。