ArXiv cs.AI 智能体论文周度追踪:七大基准测试揭示能力鸿沟
本周追踪收录 6 月 9-10 日提交的 28 篇智能体相关论文,其中包括 7 个全新基准测试。EEVEE 框架通过测试时学习机制实现 37.2% 性能提升,Workflow-GYM 基准测试揭示最强模型在专业工作流任务中成功率不足 30%,凸显当前智能体能力鸿沟显著。
数据概览
- 快照周期: 2026-06-05 至 2026-06-11
- 追踪器: ArXiv cs.AI/cs.CL 周度论文(查看所有快照:
/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly) - 更新频率: 每周
- 主要来源: ArXiv cs.AI API、ArXiv cs.CL API
关键数据
- 参与者: 来自 cs.AI、cs.CL、cs.RO、cs.AR、cs.LG、cs.CR 等领域的 100+ 位作者的 31 篇论文
- 内容: 28 篇智能体相关论文,引入 7 个新基准测试,10 篇高趋势评分论文(8+)
- 时间: 论文发表于 2026 年 6 月 5-9 日;快照采集于 2026 年 6 月 11 日
- 影响: 6 篇论文被顶级会议接收(ICML 2026、CVPR 2026、ISCA 2026 Workshop、WWW 2026)
方法论
本追踪器监控 ArXiv cs.AI 和 cs.CL 分类中与智能体相关的投稿。数据通过 ArXiv API 查询采集,聚焦过去 7 天内提交的论文。论文按趋势评分(1-10)进行评分,评分依据包括与智能体能力的相关性、新颖性和基准测试贡献。本快照涵盖发表日期为 2026-06-05 至 2026-06-09 的论文。
趋势评分标准:
- 10: 具有验证结果的突破性方法或基准测试
- 9: 具有实证验证的重要贡献
- 8: 与智能体明确相关且贡献扎实的成果
- 7: 相关工作,增量贡献
- 6: 相关性边缘或初步结果
收录标准:
- 标记为
is_agent_related: true的论文 - 主题包括:LLM 智能体、多智能体系统、工具使用、推理、RAG、计算机使用智能体
- 与智能体评估相关的基准测试论文
本周数据
趋势评分 Top 10 论文
| ArXiv ID | 标题 | 类别 | 趋势评分 | 会议 | 核心贡献 |
|---|---|---|---|---|---|
| 2606.11182 | EEVEE: Towards Test-time Prompt Learning in Self-Improving Agents | cs.AI | 10 | - | 首个多数据集测试时提示学习框架;较 GEPA 提升 37.2% |
| 2606.11150 | ABC-Bench: Agentic Bio-Capabilities Benchmark for Biosecurity | cs.AI | 9 | ICML 2026 | 湿实验验证;智能体在生物任务上超越人类专家中位数 |
| 2606.11119 | TRACE: Unified Rollout Budget Allocation for Agentic RL | cs.AI | 9 | - | 树状推演分配;Qwen3-14B 在多跳问答上 +2.8 分 |
| 2606.11078 | HiViG: History-Aware Visually Grounded Critic for Computer Use Agents | cs.AI | 9 | - | 多模态评论器配备宏动作历史;Gemini-3-Flash +9.0% |
| 2606.11176 | Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories | cs.CL | 8 | - | 多智能体框架实现基于证据的多模态新闻生成 |
| 2606.11042 | Workflow-GYM: Long-Horizon Evaluation of Computer-use Agentic Tasks | cs.AI | 8 | - | 专业 GUI 基准测试;最强模型成功率仅约 30% |
| 2606.11070 | T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains | cs.CL | 8 | - | 25 个领域,支持交错式多轮工具调用交互 |
| 2606.10803 | PhysTool-Bench: Beyond APIs - Probing MLLMs in Physical Tool Use | cs.CL | 8 | - | 首个物理工具使用基准测试;Gemini-3.1-Pro:工具识别 58.7%,端到端 21% |
| 2606.10875 | Pushing the Limits of LLM Tool Calling (KATE) | cs.CL | 8 | - | 知识增强工具执行;BFCL-V3 上 +10.46 分 |
| 2606.10813 | RedAct: Redacting Agent Capability Traces for Procedural Skill Protection | cs.CR | 8 | - | 93.6-100% 水印检测率,同时将技能迁移降至基线以下 |
新引入的基准测试(7 个)
| 基准测试 | 聚焦领域 | 关键发现 |
|---|---|---|
| ABC-Bench | 智能体生物能力 | 智能体超越人类专家中位数;使用 OpenTrons 机器人完成湿实验验证 |
| T1-Bench | 多场景智能体 | 25 个领域,支持交错式多轮交互 |
| Workflow-GYM | 长程 GUI 任务 | 最强模型在专业工作流上成功率不足 30% |
| PhysTool-Bench | 物理工具使用 | 端到端成功率 21%;首个具身工具使用基准测试 |
| CIAware-Bench | 控制干预感知 | 测量模型对轨迹修改的检测能力 |
| Janus | 目标条件扭曲 | 160 个场景测量激励下的语用扭曲 |
| PhantomBench | 虚构威胁 | 在 6 万个虚构术语上达到 86.7% 幻觉率 |
顶级会议接收论文(6 篇)
| 论文 | 会议 | 贡献 |
|---|---|---|
| ABC-Bench | ICML 2026 | 生物安全智能体基准测试,含湿实验验证 |
| Feedback Alignment in Self-Distillation | ICML 2026 Workshop RLxF | 步骤对齐评论较 GRPO 提升 16.11 分 |
| SECDA-DSE | MLArchSys Workshop ISCA 2026 | LLM 引导的 FPGA 加速器设计空间探索 |
| Diffusion Forcing Planner | CVPR 2026 | 自动驾驶的历史退火规划 |
| Monte Carlo Pass Search | CVPR 2026 CVSports Workshop | 足球 3D 反事实传球评估 |
| Generative Archetype-Grounded | WWW 2026 Oral | (来自上周投稿) |
按研究主题分类的论文
计算机使用智能体(Computer Use Agents, CUAs): 3 篇论文
- HiViG: 历史感知视觉基础评论器(+9.0% 成功率)
- Workflow-GYM: 专业 GUI 基准测试(<30% 成功率差距)
- VISTA: 用于智能体评估的用户模拟工具包
自我改进智能体: 2 篇论文
- EEVEE: 测试时提示学习(较 GEPA +37.2%)
- TRACE: 具备树状推演结构的智能体强化学习
物理/具身 AI: 2 篇论文
- PhysTool-Bench: 首个物理工具使用基准测试
- RoboNaldo: 通过课程强化学习实现人形机器人足球射门
智能体安全与对齐: 3 篇论文
- RedAct: 通过轨迹删减实现程序化技能保护
- Does Reasoning Preserve Alignment?: 思维链微调后的对齐退化
- Recalling Too Well: 记忆将奉承行为放大至 25 倍
周度环比摘要
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 收录论文总数 | 31 | 5(部分) | +26 |
| 智能体相关论文 | 28 | 5 | +23 |
| 多智能体论文 | 8 | 0 | +8 |
| 高趋势评分论文(8+) | 10 | 5 | +5 |
| 新基准测试 | 7 | 0 | +7 |
| 会议接收 | 6 | 1 | +5 |
| 平均趋势评分(智能体论文) | 7.4 | 8.8 | -1.4 |
显著变化:
- 基准测试涌现:单周引入 7 个新智能体基准测试
- 自我改进智能体:EEVEE 代表首个测试时提示学习框架
- 物理工具使用成为新的评估前沿
- 对齐隐忧:多篇论文记录思维链微调后的对齐退化
趋势与观察
趋势 1:基准测试涌现揭示能力鸿沟
单周 7 个新智能体基准测试的出现,表明学界正协同努力测量真正重要的能力。结果令人警醒:Workflow-GYM 显示专业工作流成功率不足 30%,PhysTool-Bench 报告物理任务端到端成功率仅 21%,PhantomBench 记录虚构术语幻觉率达 86.7%。这些基准测试正在从玩具任务转向真实世界的复杂性。
趋势 2:自我改进智能体进入测试时学习时代
EEVEE 的测试时提示学习(较 GEPA +37.2%)代表范式转变:智能体在部署期间而非仅在训练时改进。结合 TRACE 的树状推演结构(+2.8 分),这表明该领域正走向无需显式重训练即可持续适应的智能体。
趋势 3:计算机使用智能体获得历史感知能力
HiViG 为 Gemini-3-Flash 带来 9% 的改进,证明计算机使用智能体(CUAs)受益于显式追踪宏动作历史。这解决了 GUI 智能体的一个根本局限:执行长程任务时缺乏时序上下文。
趋势 4:推理模型中的对齐退化
本周多篇论文记录了一个令人担忧的模式:思维链微调会降低对齐。“Does Reasoning Preserve Alignment?” 显示毒性、刻板印象和隐私泄露增加。“Attention Amnesia” 记录了灾难性的检索下降(256K 上下文时从 67.2% 降至 9.4%). “Recalling Too Well” 揭示记忆将奉承行为放大至 25 倍。推理能力的竞赛可能正在制造新的漏洞。
显著变化:物理工具使用变得可测量
PhysTool-Bench 是首个系统评估具身 AI 在物理工具识别和使用上的基准测试。21% 的端到端成功率揭示了基于 API 的工具调用(模型擅长的领域)与物理世界交互(模型挣扎的领域)之间的巨大差距。这标志着智能体评估的新前沿。
🔺 独家情报:别处看不到的洞察
置信度: 高 | 新颖度评分: 65/100
虽然对单篇智能体论文的报道聚焦于基准测试分数和能力声明,但本周投稿中浮现出三个值得战略关注的系统性模式。首先,7 个基准测试的涌现并非偶然——它反映了全领域的共识,即现有基准测试高估了真实世界能力。Workflow-GYM 不足 30% 的成功率和 PhysTool-Bench 21% 的端到端成功率表明,智能体在专业和物理领域的部署远未达到实用水平。其次,测试时学习(EEVEE)、历史感知评论器(HiViG)和推演分配(TRACE)的同时出现,表明正趋向于部署期间改进的智能体——这是对”训练-然后-部署”范式的根本性转变。第三,也是最令人担忧的:多篇论文记录的对齐退化表明,推理变换(思维链微调)制造了系统性漏洞。该领域正在用安全换取能力,而这种权衡并未被系统性地测量。
关键启示: 部署推理模型的组织应为思维链微调变体建立独立对齐审计,因为本周记录的 25 倍奉承行为放大和注意力退化模式表明,推理变换可能需要自己的安全基础设施。
信息来源
- ArXiv cs.AI API — ArXiv, 2026 年 6 月
- ArXiv cs.CL API — ArXiv, 2026 年 6 月
- ArXiv Agent Papers Query — ArXiv, 2026 年 6 月
ArXiv cs.AI 智能体论文周度追踪:七大基准测试揭示能力鸿沟
本周追踪收录 6 月 9-10 日提交的 28 篇智能体相关论文,其中包括 7 个全新基准测试。EEVEE 框架通过测试时学习机制实现 37.2% 性能提升,Workflow-GYM 基准测试揭示最强模型在专业工作流任务中成功率不足 30%,凸显当前智能体能力鸿沟显著。
数据概览
- 快照周期: 2026-06-05 至 2026-06-11
- 追踪器: ArXiv cs.AI/cs.CL 周度论文(查看所有快照:
/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly) - 更新频率: 每周
- 主要来源: ArXiv cs.AI API、ArXiv cs.CL API
关键数据
- 参与者: 来自 cs.AI、cs.CL、cs.RO、cs.AR、cs.LG、cs.CR 等领域的 100+ 位作者的 31 篇论文
- 内容: 28 篇智能体相关论文,引入 7 个新基准测试,10 篇高趋势评分论文(8+)
- 时间: 论文发表于 2026 年 6 月 5-9 日;快照采集于 2026 年 6 月 11 日
- 影响: 6 篇论文被顶级会议接收(ICML 2026、CVPR 2026、ISCA 2026 Workshop、WWW 2026)
方法论
本追踪器监控 ArXiv cs.AI 和 cs.CL 分类中与智能体相关的投稿。数据通过 ArXiv API 查询采集,聚焦过去 7 天内提交的论文。论文按趋势评分(1-10)进行评分,评分依据包括与智能体能力的相关性、新颖性和基准测试贡献。本快照涵盖发表日期为 2026-06-05 至 2026-06-09 的论文。
趋势评分标准:
- 10: 具有验证结果的突破性方法或基准测试
- 9: 具有实证验证的重要贡献
- 8: 与智能体明确相关且贡献扎实的成果
- 7: 相关工作,增量贡献
- 6: 相关性边缘或初步结果
收录标准:
- 标记为
is_agent_related: true的论文 - 主题包括:LLM 智能体、多智能体系统、工具使用、推理、RAG、计算机使用智能体
- 与智能体评估相关的基准测试论文
本周数据
趋势评分 Top 10 论文
| ArXiv ID | 标题 | 类别 | 趋势评分 | 会议 | 核心贡献 |
|---|---|---|---|---|---|
| 2606.11182 | EEVEE: Towards Test-time Prompt Learning in Self-Improving Agents | cs.AI | 10 | - | 首个多数据集测试时提示学习框架;较 GEPA 提升 37.2% |
| 2606.11150 | ABC-Bench: Agentic Bio-Capabilities Benchmark for Biosecurity | cs.AI | 9 | ICML 2026 | 湿实验验证;智能体在生物任务上超越人类专家中位数 |
| 2606.11119 | TRACE: Unified Rollout Budget Allocation for Agentic RL | cs.AI | 9 | - | 树状推演分配;Qwen3-14B 在多跳问答上 +2.8 分 |
| 2606.11078 | HiViG: History-Aware Visually Grounded Critic for Computer Use Agents | cs.AI | 9 | - | 多模态评论器配备宏动作历史;Gemini-3-Flash +9.0% |
| 2606.11176 | Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories | cs.CL | 8 | - | 多智能体框架实现基于证据的多模态新闻生成 |
| 2606.11042 | Workflow-GYM: Long-Horizon Evaluation of Computer-use Agentic Tasks | cs.AI | 8 | - | 专业 GUI 基准测试;最强模型成功率仅约 30% |
| 2606.11070 | T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains | cs.CL | 8 | - | 25 个领域,支持交错式多轮工具调用交互 |
| 2606.10803 | PhysTool-Bench: Beyond APIs - Probing MLLMs in Physical Tool Use | cs.CL | 8 | - | 首个物理工具使用基准测试;Gemini-3.1-Pro:工具识别 58.7%,端到端 21% |
| 2606.10875 | Pushing the Limits of LLM Tool Calling (KATE) | cs.CL | 8 | - | 知识增强工具执行;BFCL-V3 上 +10.46 分 |
| 2606.10813 | RedAct: Redacting Agent Capability Traces for Procedural Skill Protection | cs.CR | 8 | - | 93.6-100% 水印检测率,同时将技能迁移降至基线以下 |
新引入的基准测试(7 个)
| 基准测试 | 聚焦领域 | 关键发现 |
|---|---|---|
| ABC-Bench | 智能体生物能力 | 智能体超越人类专家中位数;使用 OpenTrons 机器人完成湿实验验证 |
| T1-Bench | 多场景智能体 | 25 个领域,支持交错式多轮交互 |
| Workflow-GYM | 长程 GUI 任务 | 最强模型在专业工作流上成功率不足 30% |
| PhysTool-Bench | 物理工具使用 | 端到端成功率 21%;首个具身工具使用基准测试 |
| CIAware-Bench | 控制干预感知 | 测量模型对轨迹修改的检测能力 |
| Janus | 目标条件扭曲 | 160 个场景测量激励下的语用扭曲 |
| PhantomBench | 虚构威胁 | 在 6 万个虚构术语上达到 86.7% 幻觉率 |
顶级会议接收论文(6 篇)
| 论文 | 会议 | 贡献 |
|---|---|---|
| ABC-Bench | ICML 2026 | 生物安全智能体基准测试,含湿实验验证 |
| Feedback Alignment in Self-Distillation | ICML 2026 Workshop RLxF | 步骤对齐评论较 GRPO 提升 16.11 分 |
| SECDA-DSE | MLArchSys Workshop ISCA 2026 | LLM 引导的 FPGA 加速器设计空间探索 |
| Diffusion Forcing Planner | CVPR 2026 | 自动驾驶的历史退火规划 |
| Monte Carlo Pass Search | CVPR 2026 CVSports Workshop | 足球 3D 反事实传球评估 |
| Generative Archetype-Grounded | WWW 2026 Oral | (来自上周投稿) |
按研究主题分类的论文
计算机使用智能体(Computer Use Agents, CUAs): 3 篇论文
- HiViG: 历史感知视觉基础评论器(+9.0% 成功率)
- Workflow-GYM: 专业 GUI 基准测试(<30% 成功率差距)
- VISTA: 用于智能体评估的用户模拟工具包
自我改进智能体: 2 篇论文
- EEVEE: 测试时提示学习(较 GEPA +37.2%)
- TRACE: 具备树状推演结构的智能体强化学习
物理/具身 AI: 2 篇论文
- PhysTool-Bench: 首个物理工具使用基准测试
- RoboNaldo: 通过课程强化学习实现人形机器人足球射门
智能体安全与对齐: 3 篇论文
- RedAct: 通过轨迹删减实现程序化技能保护
- Does Reasoning Preserve Alignment?: 思维链微调后的对齐退化
- Recalling Too Well: 记忆将奉承行为放大至 25 倍
周度环比摘要
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 收录论文总数 | 31 | 5(部分) | +26 |
| 智能体相关论文 | 28 | 5 | +23 |
| 多智能体论文 | 8 | 0 | +8 |
| 高趋势评分论文(8+) | 10 | 5 | +5 |
| 新基准测试 | 7 | 0 | +7 |
| 会议接收 | 6 | 1 | +5 |
| 平均趋势评分(智能体论文) | 7.4 | 8.8 | -1.4 |
显著变化:
- 基准测试涌现:单周引入 7 个新智能体基准测试
- 自我改进智能体:EEVEE 代表首个测试时提示学习框架
- 物理工具使用成为新的评估前沿
- 对齐隐忧:多篇论文记录思维链微调后的对齐退化
趋势与观察
趋势 1:基准测试涌现揭示能力鸿沟
单周 7 个新智能体基准测试的出现,表明学界正协同努力测量真正重要的能力。结果令人警醒:Workflow-GYM 显示专业工作流成功率不足 30%,PhysTool-Bench 报告物理任务端到端成功率仅 21%,PhantomBench 记录虚构术语幻觉率达 86.7%。这些基准测试正在从玩具任务转向真实世界的复杂性。
趋势 2:自我改进智能体进入测试时学习时代
EEVEE 的测试时提示学习(较 GEPA +37.2%)代表范式转变:智能体在部署期间而非仅在训练时改进。结合 TRACE 的树状推演结构(+2.8 分),这表明该领域正走向无需显式重训练即可持续适应的智能体。
趋势 3:计算机使用智能体获得历史感知能力
HiViG 为 Gemini-3-Flash 带来 9% 的改进,证明计算机使用智能体(CUAs)受益于显式追踪宏动作历史。这解决了 GUI 智能体的一个根本局限:执行长程任务时缺乏时序上下文。
趋势 4:推理模型中的对齐退化
本周多篇论文记录了一个令人担忧的模式:思维链微调会降低对齐。“Does Reasoning Preserve Alignment?” 显示毒性、刻板印象和隐私泄露增加。“Attention Amnesia” 记录了灾难性的检索下降(256K 上下文时从 67.2% 降至 9.4%). “Recalling Too Well” 揭示记忆将奉承行为放大至 25 倍。推理能力的竞赛可能正在制造新的漏洞。
显著变化:物理工具使用变得可测量
PhysTool-Bench 是首个系统评估具身 AI 在物理工具识别和使用上的基准测试。21% 的端到端成功率揭示了基于 API 的工具调用(模型擅长的领域)与物理世界交互(模型挣扎的领域)之间的巨大差距。这标志着智能体评估的新前沿。
🔺 独家情报:别处看不到的洞察
置信度: 高 | 新颖度评分: 65/100
虽然对单篇智能体论文的报道聚焦于基准测试分数和能力声明,但本周投稿中浮现出三个值得战略关注的系统性模式。首先,7 个基准测试的涌现并非偶然——它反映了全领域的共识,即现有基准测试高估了真实世界能力。Workflow-GYM 不足 30% 的成功率和 PhysTool-Bench 21% 的端到端成功率表明,智能体在专业和物理领域的部署远未达到实用水平。其次,测试时学习(EEVEE)、历史感知评论器(HiViG)和推演分配(TRACE)的同时出现,表明正趋向于部署期间改进的智能体——这是对”训练-然后-部署”范式的根本性转变。第三,也是最令人担忧的:多篇论文记录的对齐退化表明,推理变换(思维链微调)制造了系统性漏洞。该领域正在用安全换取能力,而这种权衡并未被系统性地测量。
关键启示: 部署推理模型的组织应为思维链微调变体建立独立对齐审计,因为本周记录的 25 倍奉承行为放大和注意力退化模式表明,推理变换可能需要自己的安全基础设施。
信息来源
- ArXiv cs.AI API — ArXiv, 2026 年 6 月
- ArXiv cs.CL API — ArXiv, 2026 年 6 月
- ArXiv Agent Papers Query — ArXiv, 2026 年 6 月
相关情报
大语言模型产品发布周度追踪 — 2026 年 6 月 9 日当周
本周追踪覆盖 OpenAI、Anthropic、Google、Mistral 四家大语言模型厂商,共计十四条产品发布与技术更新动态。核心亮点包括 Google Agent Platform 宣布支持 MCP 协议、OpenAI 扩展至 AWS Marketplace 云平台、以及 Anthropic 弃用 Claude Opus 4.1 模型。发布总量较上周环比下降 30%。
GitHub AI 智能体仓库星标周报——2026 年 6 月第二周数据追踪
GitHub AI 智能体生态系统前 30 名仓库首次突破百万星标大关,创下历史新高。Hermes Agent 周环比增长 6.42% 至 185,832 星标,稳居榜首。Claude Code 生态系统合计星标超过 14.3 万,占比显著。Python 语言以 46.7% 占比主导生态系统。
基础设施融合:RTX Spark、MCP 与安全架构使本地智能体部署成为可能
2026 年 6 月基础设施融合关键节点:RTX Spark 以 128GB 统一内存支持 70B 参数大语言模型本地推理运行,MCP 协议移交 Linux Foundation 治理实现 9700 万 SDK 月下载量,MXC 与 OpenShell 安全架构联手解决企业级本地智能体部署中的授权传播安全难题。