婷婷社区初度障翳超11类编程场景！字节开源最全面代码大模子基准FullStack Bench

发布日期：2024-12-08 12:38 点击次数：99

婷婷社区

代码大模子越来越卷，评估 AI 编程水平的"考卷"也被动升级。12 月 5 日，字节豆包大模子团队开源最新代码大模子评估基准 FullStack Bench，在业界初度囊括编程全栈时候中超 11 类真实场景，障翳 16 种编程言语，包含 3374 个问题，比拟此前基准，不错更灵验地评估大模子在现实天下中的代码配置才能。

代码评估基准是估量大模子编程才能的圭臬器具，亦然股东模子优化的要津驱能源。不外，面前的代码评估基准障翳的诈欺类型和编程言语较为有限，难以响应真实天下中代码配置场景的种种性和复杂性。

比如，主流代码评测集 HumanEval 和 MBPP 中近 80% 数据只聚焦基础编程和高等编程问题；DS-1000 中 95% 数据集会会于数据分析和机器学习任务，且仅对 Python 言语进行评测；xCodeEval 虽障翳多项任务，但基本局限于高等编程和数学领域。

因此，字节豆包大模子团队与 M-A-P 开源社区鸠合提议 FullStack Bench，一个专注于全栈编程和多言语编程的代码评估数据集。为囊括在真实全栈配置中触及的种种诈欺场景，酌量团队从公共最大的花式员时候问答社区 Stack Overflow 中立时抽取了 50 万个问题进行分析，筛选出占总问题数前 88.1% 的诈欺领域，并对其散布作念了相宜转机来保证每个领域的鲁棒性，最终酿成了 FullStack Bench 热心的跨越 11 种诈欺场景及散布比例。

FullStack Bench 包含 3374 个问题，每个问题均包括题目面容、参考处治决策及单位测试用例，共计 15168 个单位测试。为保证评估准确性，问题试验均由联系领域的编程人人策画，并经 AI 和东谈主工考证进行质地复核。在最先数据集构建后，团队笔据主流代码大模子测试服从，按问题难度、空匮性和可解性对数据质地进行了交叉评估和进一步完善。

FullStack Bench 数据集组成情况

为绵薄配置者对大模子代码才能进行系统性测试，豆包大模子团队还开源了一款高效的代码沙盒推论器具—— SandboxFusion，用于评估来自不同言语的不同编程任务。除了 FullStack Bench，SandboxFusion 还兼容跨越 10 种庸碌使用的代码评估数据集，支握 23 种编程言语。配置者在单功绩器上即可纵容部署 SandboxFusion，也可径直在 GitHub 上进行体验。

发布评测基准及沙盒的同期，字节代码大模子也初度曝光。酌量中，豆包大模子团队对公共 20 余款代码大模子及言语大模子的编程发扬进行了评测（详见论文），其中包括未裸露过的豆包代码大模子 Doubao-Coder。

近半年婷婷社区，字节在代码大模子领域进展速即，本年 6 月字节发布了由自研代码基座模子复古的 AI 编程助手豆包 MarsCode，当今每月为用户孝顺百万量级代码。

上一篇：李蓉蓉麻豆各人Polo将“复产”? 异日更新引热议, 是否能重返市集巅峰?

下一篇：婷婷社区狗狗失慎吞食异物如何办？

婷婷社区 初度障翳超11类编程场景！字节开源最全面代码大模子基准FullStack Bench

婷婷社区初度障翳超11类编程场景！字节开源最全面代码大模子基准FullStack Bench