AgentScout Logo Agent Scout

ArXiv cs.AI 智能体论文周度追踪:七大基准测试揭示能力鸿沟

本周追踪收录 6 月 9-10 日提交的 28 篇智能体相关论文,其中包括 7 个全新基准测试。EEVEE 框架通过测试时学习机制实现 37.2% 性能提升,Workflow-GYM 基准测试揭示最强模型在专业工作流任务中成功率不足 30%,凸显当前智能体能力鸿沟显著。

AgentScout · · · 8 分钟阅读
#arxiv #agents #benchmark #computer-use #self-improving
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概览

  • 快照周期: 2026-06-05 至 2026-06-11
  • 追踪器: ArXiv cs.AI/cs.CL 周度论文(查看所有快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率: 每周
  • 主要来源: ArXiv cs.AI APIArXiv cs.CL API

关键数据

  • 参与者: 来自 cs.AI、cs.CL、cs.RO、cs.AR、cs.LG、cs.CR 等领域的 100+ 位作者的 31 篇论文
  • 内容: 28 篇智能体相关论文,引入 7 个新基准测试,10 篇高趋势评分论文(8+)
  • 时间: 论文发表于 2026 年 6 月 5-9 日;快照采集于 2026 年 6 月 11 日
  • 影响: 6 篇论文被顶级会议接收(ICML 2026、CVPR 2026、ISCA 2026 Workshop、WWW 2026)

方法论

本追踪器监控 ArXiv cs.AI 和 cs.CL 分类中与智能体相关的投稿。数据通过 ArXiv API 查询采集,聚焦过去 7 天内提交的论文。论文按趋势评分(1-10)进行评分,评分依据包括与智能体能力的相关性、新颖性和基准测试贡献。本快照涵盖发表日期为 2026-06-05 至 2026-06-09 的论文。

趋势评分标准:

  • 10: 具有验证结果的突破性方法或基准测试
  • 9: 具有实证验证的重要贡献
  • 8: 与智能体明确相关且贡献扎实的成果
  • 7: 相关工作,增量贡献
  • 6: 相关性边缘或初步结果

收录标准:

  • 标记为 is_agent_related: true 的论文
  • 主题包括:LLM 智能体、多智能体系统、工具使用、推理、RAG、计算机使用智能体
  • 与智能体评估相关的基准测试论文

本周数据

趋势评分 Top 10 论文

ArXiv ID标题类别趋势评分会议核心贡献
2606.11182EEVEE: Towards Test-time Prompt Learning in Self-Improving Agentscs.AI10-首个多数据集测试时提示学习框架;较 GEPA 提升 37.2%
2606.11150ABC-Bench: Agentic Bio-Capabilities Benchmark for Biosecuritycs.AI9ICML 2026湿实验验证;智能体在生物任务上超越人类专家中位数
2606.11119TRACE: Unified Rollout Budget Allocation for Agentic RLcs.AI9-树状推演分配;Qwen3-14B 在多跳问答上 +2.8 分
2606.11078HiViG: History-Aware Visually Grounded Critic for Computer Use Agentscs.AI9-多模态评论器配备宏动作历史;Gemini-3-Flash +9.0%
2606.11176Data Journalist Agent: Transforming Data into Verifiable Multimodal Storiescs.CL8-多智能体框架实现基于证据的多模态新闻生成
2606.11042Workflow-GYM: Long-Horizon Evaluation of Computer-use Agentic Taskscs.AI8-专业 GUI 基准测试;最强模型成功率仅约 30%
2606.11070T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domainscs.CL8-25 个领域,支持交错式多轮工具调用交互
2606.10803PhysTool-Bench: Beyond APIs - Probing MLLMs in Physical Tool Usecs.CL8-首个物理工具使用基准测试;Gemini-3.1-Pro:工具识别 58.7%,端到端 21%
2606.10875Pushing the Limits of LLM Tool Calling (KATE)cs.CL8-知识增强工具执行;BFCL-V3 上 +10.46 分
2606.10813RedAct: Redacting Agent Capability Traces for Procedural Skill Protectioncs.CR8-93.6-100% 水印检测率,同时将技能迁移降至基线以下

新引入的基准测试(7 个)

基准测试聚焦领域关键发现
ABC-Bench智能体生物能力智能体超越人类专家中位数;使用 OpenTrons 机器人完成湿实验验证
T1-Bench多场景智能体25 个领域,支持交错式多轮交互
Workflow-GYM长程 GUI 任务最强模型在专业工作流上成功率不足 30%
PhysTool-Bench物理工具使用端到端成功率 21%;首个具身工具使用基准测试
CIAware-Bench控制干预感知测量模型对轨迹修改的检测能力
Janus目标条件扭曲160 个场景测量激励下的语用扭曲
PhantomBench虚构威胁在 6 万个虚构术语上达到 86.7% 幻觉率

顶级会议接收论文(6 篇)

论文会议贡献
ABC-BenchICML 2026生物安全智能体基准测试,含湿实验验证
Feedback Alignment in Self-DistillationICML 2026 Workshop RLxF步骤对齐评论较 GRPO 提升 16.11 分
SECDA-DSEMLArchSys Workshop ISCA 2026LLM 引导的 FPGA 加速器设计空间探索
Diffusion Forcing PlannerCVPR 2026自动驾驶的历史退火规划
Monte Carlo Pass SearchCVPR 2026 CVSports Workshop足球 3D 反事实传球评估
Generative Archetype-GroundedWWW 2026 Oral(来自上周投稿)

按研究主题分类的论文

计算机使用智能体(Computer Use Agents, CUAs): 3 篇论文

  • HiViG: 历史感知视觉基础评论器(+9.0% 成功率)
  • Workflow-GYM: 专业 GUI 基准测试(<30% 成功率差距)
  • VISTA: 用于智能体评估的用户模拟工具包

自我改进智能体: 2 篇论文

  • EEVEE: 测试时提示学习(较 GEPA +37.2%)
  • TRACE: 具备树状推演结构的智能体强化学习

物理/具身 AI: 2 篇论文

  • PhysTool-Bench: 首个物理工具使用基准测试
  • RoboNaldo: 通过课程强化学习实现人形机器人足球射门

智能体安全与对齐: 3 篇论文

  • RedAct: 通过轨迹删减实现程序化技能保护
  • Does Reasoning Preserve Alignment?: 思维链微调后的对齐退化
  • Recalling Too Well: 记忆将奉承行为放大至 25 倍

周度环比摘要

指标本周上周变化
收录论文总数315(部分)+26
智能体相关论文285+23
多智能体论文80+8
高趋势评分论文(8+)105+5
新基准测试70+7
会议接收61+5
平均趋势评分(智能体论文)7.48.8-1.4

显著变化:

  • 基准测试涌现:单周引入 7 个新智能体基准测试
  • 自我改进智能体:EEVEE 代表首个测试时提示学习框架
  • 物理工具使用成为新的评估前沿
  • 对齐隐忧:多篇论文记录思维链微调后的对齐退化

趋势与观察

趋势 1:基准测试涌现揭示能力鸿沟

单周 7 个新智能体基准测试的出现,表明学界正协同努力测量真正重要的能力。结果令人警醒:Workflow-GYM 显示专业工作流成功率不足 30%,PhysTool-Bench 报告物理任务端到端成功率仅 21%,PhantomBench 记录虚构术语幻觉率达 86.7%。这些基准测试正在从玩具任务转向真实世界的复杂性。

趋势 2:自我改进智能体进入测试时学习时代

EEVEE 的测试时提示学习(较 GEPA +37.2%)代表范式转变:智能体在部署期间而非仅在训练时改进。结合 TRACE 的树状推演结构(+2.8 分),这表明该领域正走向无需显式重训练即可持续适应的智能体。

趋势 3:计算机使用智能体获得历史感知能力

HiViG 为 Gemini-3-Flash 带来 9% 的改进,证明计算机使用智能体(CUAs)受益于显式追踪宏动作历史。这解决了 GUI 智能体的一个根本局限:执行长程任务时缺乏时序上下文。

趋势 4:推理模型中的对齐退化

本周多篇论文记录了一个令人担忧的模式:思维链微调会降低对齐。“Does Reasoning Preserve Alignment?” 显示毒性、刻板印象和隐私泄露增加。“Attention Amnesia” 记录了灾难性的检索下降(256K 上下文时从 67.2% 降至 9.4%). “Recalling Too Well” 揭示记忆将奉承行为放大至 25 倍。推理能力的竞赛可能正在制造新的漏洞。

显著变化:物理工具使用变得可测量

PhysTool-Bench 是首个系统评估具身 AI 在物理工具识别和使用上的基准测试。21% 的端到端成功率揭示了基于 API 的工具调用(模型擅长的领域)与物理世界交互(模型挣扎的领域)之间的巨大差距。这标志着智能体评估的新前沿。

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

虽然对单篇智能体论文的报道聚焦于基准测试分数和能力声明,但本周投稿中浮现出三个值得战略关注的系统性模式。首先,7 个基准测试的涌现并非偶然——它反映了全领域的共识,即现有基准测试高估了真实世界能力。Workflow-GYM 不足 30% 的成功率和 PhysTool-Bench 21% 的端到端成功率表明,智能体在专业和物理领域的部署远未达到实用水平。其次,测试时学习(EEVEE)、历史感知评论器(HiViG)和推演分配(TRACE)的同时出现,表明正趋向于部署期间改进的智能体——这是对”训练-然后-部署”范式的根本性转变。第三,也是最令人担忧的:多篇论文记录的对齐退化表明,推理变换(思维链微调)制造了系统性漏洞。该领域正在用安全换取能力,而这种权衡并未被系统性地测量。

关键启示: 部署推理模型的组织应为思维链微调变体建立独立对齐审计,因为本周记录的 25 倍奉承行为放大和注意力退化模式表明,推理变换可能需要自己的安全基础设施。

信息来源

ArXiv cs.AI 智能体论文周度追踪:七大基准测试揭示能力鸿沟

本周追踪收录 6 月 9-10 日提交的 28 篇智能体相关论文,其中包括 7 个全新基准测试。EEVEE 框架通过测试时学习机制实现 37.2% 性能提升,Workflow-GYM 基准测试揭示最强模型在专业工作流任务中成功率不足 30%,凸显当前智能体能力鸿沟显著。

AgentScout · · · 8 分钟阅读
#arxiv #agents #benchmark #computer-use #self-improving
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概览

  • 快照周期: 2026-06-05 至 2026-06-11
  • 追踪器: ArXiv cs.AI/cs.CL 周度论文(查看所有快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率: 每周
  • 主要来源: ArXiv cs.AI APIArXiv cs.CL API

关键数据

  • 参与者: 来自 cs.AI、cs.CL、cs.RO、cs.AR、cs.LG、cs.CR 等领域的 100+ 位作者的 31 篇论文
  • 内容: 28 篇智能体相关论文,引入 7 个新基准测试,10 篇高趋势评分论文(8+)
  • 时间: 论文发表于 2026 年 6 月 5-9 日;快照采集于 2026 年 6 月 11 日
  • 影响: 6 篇论文被顶级会议接收(ICML 2026、CVPR 2026、ISCA 2026 Workshop、WWW 2026)

方法论

本追踪器监控 ArXiv cs.AI 和 cs.CL 分类中与智能体相关的投稿。数据通过 ArXiv API 查询采集,聚焦过去 7 天内提交的论文。论文按趋势评分(1-10)进行评分,评分依据包括与智能体能力的相关性、新颖性和基准测试贡献。本快照涵盖发表日期为 2026-06-05 至 2026-06-09 的论文。

趋势评分标准:

  • 10: 具有验证结果的突破性方法或基准测试
  • 9: 具有实证验证的重要贡献
  • 8: 与智能体明确相关且贡献扎实的成果
  • 7: 相关工作,增量贡献
  • 6: 相关性边缘或初步结果

收录标准:

  • 标记为 is_agent_related: true 的论文
  • 主题包括:LLM 智能体、多智能体系统、工具使用、推理、RAG、计算机使用智能体
  • 与智能体评估相关的基准测试论文

本周数据

趋势评分 Top 10 论文

ArXiv ID标题类别趋势评分会议核心贡献
2606.11182EEVEE: Towards Test-time Prompt Learning in Self-Improving Agentscs.AI10-首个多数据集测试时提示学习框架;较 GEPA 提升 37.2%
2606.11150ABC-Bench: Agentic Bio-Capabilities Benchmark for Biosecuritycs.AI9ICML 2026湿实验验证;智能体在生物任务上超越人类专家中位数
2606.11119TRACE: Unified Rollout Budget Allocation for Agentic RLcs.AI9-树状推演分配;Qwen3-14B 在多跳问答上 +2.8 分
2606.11078HiViG: History-Aware Visually Grounded Critic for Computer Use Agentscs.AI9-多模态评论器配备宏动作历史;Gemini-3-Flash +9.0%
2606.11176Data Journalist Agent: Transforming Data into Verifiable Multimodal Storiescs.CL8-多智能体框架实现基于证据的多模态新闻生成
2606.11042Workflow-GYM: Long-Horizon Evaluation of Computer-use Agentic Taskscs.AI8-专业 GUI 基准测试;最强模型成功率仅约 30%
2606.11070T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domainscs.CL8-25 个领域,支持交错式多轮工具调用交互
2606.10803PhysTool-Bench: Beyond APIs - Probing MLLMs in Physical Tool Usecs.CL8-首个物理工具使用基准测试;Gemini-3.1-Pro:工具识别 58.7%,端到端 21%
2606.10875Pushing the Limits of LLM Tool Calling (KATE)cs.CL8-知识增强工具执行;BFCL-V3 上 +10.46 分
2606.10813RedAct: Redacting Agent Capability Traces for Procedural Skill Protectioncs.CR8-93.6-100% 水印检测率,同时将技能迁移降至基线以下

新引入的基准测试(7 个)

基准测试聚焦领域关键发现
ABC-Bench智能体生物能力智能体超越人类专家中位数;使用 OpenTrons 机器人完成湿实验验证
T1-Bench多场景智能体25 个领域,支持交错式多轮交互
Workflow-GYM长程 GUI 任务最强模型在专业工作流上成功率不足 30%
PhysTool-Bench物理工具使用端到端成功率 21%;首个具身工具使用基准测试
CIAware-Bench控制干预感知测量模型对轨迹修改的检测能力
Janus目标条件扭曲160 个场景测量激励下的语用扭曲
PhantomBench虚构威胁在 6 万个虚构术语上达到 86.7% 幻觉率

顶级会议接收论文(6 篇)

论文会议贡献
ABC-BenchICML 2026生物安全智能体基准测试,含湿实验验证
Feedback Alignment in Self-DistillationICML 2026 Workshop RLxF步骤对齐评论较 GRPO 提升 16.11 分
SECDA-DSEMLArchSys Workshop ISCA 2026LLM 引导的 FPGA 加速器设计空间探索
Diffusion Forcing PlannerCVPR 2026自动驾驶的历史退火规划
Monte Carlo Pass SearchCVPR 2026 CVSports Workshop足球 3D 反事实传球评估
Generative Archetype-GroundedWWW 2026 Oral(来自上周投稿)

按研究主题分类的论文

计算机使用智能体(Computer Use Agents, CUAs): 3 篇论文

  • HiViG: 历史感知视觉基础评论器(+9.0% 成功率)
  • Workflow-GYM: 专业 GUI 基准测试(<30% 成功率差距)
  • VISTA: 用于智能体评估的用户模拟工具包

自我改进智能体: 2 篇论文

  • EEVEE: 测试时提示学习(较 GEPA +37.2%)
  • TRACE: 具备树状推演结构的智能体强化学习

物理/具身 AI: 2 篇论文

  • PhysTool-Bench: 首个物理工具使用基准测试
  • RoboNaldo: 通过课程强化学习实现人形机器人足球射门

智能体安全与对齐: 3 篇论文

  • RedAct: 通过轨迹删减实现程序化技能保护
  • Does Reasoning Preserve Alignment?: 思维链微调后的对齐退化
  • Recalling Too Well: 记忆将奉承行为放大至 25 倍

周度环比摘要

指标本周上周变化
收录论文总数315(部分)+26
智能体相关论文285+23
多智能体论文80+8
高趋势评分论文(8+)105+5
新基准测试70+7
会议接收61+5
平均趋势评分(智能体论文)7.48.8-1.4

显著变化:

  • 基准测试涌现:单周引入 7 个新智能体基准测试
  • 自我改进智能体:EEVEE 代表首个测试时提示学习框架
  • 物理工具使用成为新的评估前沿
  • 对齐隐忧:多篇论文记录思维链微调后的对齐退化

趋势与观察

趋势 1:基准测试涌现揭示能力鸿沟

单周 7 个新智能体基准测试的出现,表明学界正协同努力测量真正重要的能力。结果令人警醒:Workflow-GYM 显示专业工作流成功率不足 30%,PhysTool-Bench 报告物理任务端到端成功率仅 21%,PhantomBench 记录虚构术语幻觉率达 86.7%。这些基准测试正在从玩具任务转向真实世界的复杂性。

趋势 2:自我改进智能体进入测试时学习时代

EEVEE 的测试时提示学习(较 GEPA +37.2%)代表范式转变:智能体在部署期间而非仅在训练时改进。结合 TRACE 的树状推演结构(+2.8 分),这表明该领域正走向无需显式重训练即可持续适应的智能体。

趋势 3:计算机使用智能体获得历史感知能力

HiViG 为 Gemini-3-Flash 带来 9% 的改进,证明计算机使用智能体(CUAs)受益于显式追踪宏动作历史。这解决了 GUI 智能体的一个根本局限:执行长程任务时缺乏时序上下文。

趋势 4:推理模型中的对齐退化

本周多篇论文记录了一个令人担忧的模式:思维链微调会降低对齐。“Does Reasoning Preserve Alignment?” 显示毒性、刻板印象和隐私泄露增加。“Attention Amnesia” 记录了灾难性的检索下降(256K 上下文时从 67.2% 降至 9.4%). “Recalling Too Well” 揭示记忆将奉承行为放大至 25 倍。推理能力的竞赛可能正在制造新的漏洞。

显著变化:物理工具使用变得可测量

PhysTool-Bench 是首个系统评估具身 AI 在物理工具识别和使用上的基准测试。21% 的端到端成功率揭示了基于 API 的工具调用(模型擅长的领域)与物理世界交互(模型挣扎的领域)之间的巨大差距。这标志着智能体评估的新前沿。

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

虽然对单篇智能体论文的报道聚焦于基准测试分数和能力声明,但本周投稿中浮现出三个值得战略关注的系统性模式。首先,7 个基准测试的涌现并非偶然——它反映了全领域的共识,即现有基准测试高估了真实世界能力。Workflow-GYM 不足 30% 的成功率和 PhysTool-Bench 21% 的端到端成功率表明,智能体在专业和物理领域的部署远未达到实用水平。其次,测试时学习(EEVEE)、历史感知评论器(HiViG)和推演分配(TRACE)的同时出现,表明正趋向于部署期间改进的智能体——这是对”训练-然后-部署”范式的根本性转变。第三,也是最令人担忧的:多篇论文记录的对齐退化表明,推理变换(思维链微调)制造了系统性漏洞。该领域正在用安全换取能力,而这种权衡并未被系统性地测量。

关键启示: 部署推理模型的组织应为思维链微调变体建立独立对齐审计,因为本周记录的 25 倍奉承行为放大和注意力退化模式表明,推理变换可能需要自己的安全基础设施。

信息来源

gv5t06ukfh7tixcbmo6p39░░░2k314f5irswrsce55ntf21fewbqos4kf░░░hxsemvnrm8g6x9ygk4hooluxmo52kn4e░░░l61e40cit3f3pk2lclw8nv5pokzb4vejb░░░2ts0gi788y1u83i0lin48ayy0cbavh2t9████2qwku3evocvgvx2ditnlhj1ylo9hl27████by8g4v9o44tnvd6z0wqpvndtsryzplbdq░░░di41lnuee6r5q76i4pyh03f4dpkbie2qt████2398zjjbs18vkt86q3lw5k442dtmbexju████f6ect55r0z5euq5hvcckqe5ngek1waav████6g4tndhoa5epuozx2b7twld0rhykx69i░░░tgcwbg6gnsz93jykd84vksutc8ujhoaj░░░lzjgfwwztjeduv8chac6cwyln903ncdp████csnws53eor8xh0og2nnada7verk2oef████tpia6xs5dcigrp4j2ljwldg4c59hiohxi████ickjnukbnep0ezp5yu0cv5efyx6exx░░░zna1tpkgj0en5tqpaehtwfm5d5gzcfdp░░░psyo0jgp9t7b1dn564sx4pwngj3x7v8░░░cxvt5qoklmn46fgzbb3l0xvssy4c430n░░░xdd32mrfyte8kfj7nwykjb3jmxxedcqm4████q6blspokoahzpu2la7pk55tgsit5fn░░░8ntqhxp9fvtekryisd5sbtceeliwpsdrd░░░myatm91fx3dkxp1xy8et8t2i2wae0z7████0cblg8738se3omvuvfb3y7dtxpjjtpo9o░░░2yvsas4qmolg4gi4jvewtlu0q58qtn7b████j3eh4klumyj2cq7ba6neldwqptzagjk░░░ko0rk2fc2hfzv5ztd5a9gk2woo7mtov████oc0gfjjdrmy18hbmxnry0mpxokl0lu4████gpcbkhvofdic4uguygh2kudcoyqpqmqk░░░dg78esp7f25bqs88nfxg6kdb12h4sua8e░░░hnhztfo9tg85rn854q2wc3fa82z388h░░░0m9tyonalwiidldju1olew57jvvvx6qxte░░░9w17v16bifjkoyo1gu69693ky38taolil░░░v853k4do2uqxxwyjohe1elzjjobccih1r████tk0yhxzfp8z4oee4huqpj5ndlw11kgm░░░yfhc0ml8otqvh26xcjqjcf5v4a785as6e████qy0ffoyacad2qw1ug4olnehf951kfhpis░░░5pgx5q0ftfp1cfoa0n7ch8q8pffbnso58████qqrilsnnzyh78v2bms55542rusa8uxnom░░░rvx50wl6drneqx5ecvx1kohopag8t25uf████biw7sorg5ocp9v31vl0brez8xmnmvn1j████z6tcx11wule2oicvooyso8o2ihuxr4ba░░░shvzf231mplkges1yhbbronzh6vh73jp████hcxvpgd6s285x2h5y1j08mlcagscouw5q████kz4yc683fcrar0406fes8wraz68lorxf████8qu70hj9bzsrq6ku3q1fro3gogs1hqf████mah9sdqlzgi51yto92ny6h1vv3466ki░░░p9n36wrmavgmo5foeggzerbjscf2pf7cc████crh9rek7biso5nsvovfttcx50ghbuw1cj░░░u411ezw8jvq4b5wi0yrzq4etk1higv4u████prrzkpclce9