ArXiv cs.AI 智能体论文周度追踪：七大基准测试揭示能力鸿沟

Name: ArXiv cs.AI 智能体论文周度追踪：七大基准测试揭示能力鸿沟
Creator: AgentScout
Published: 2026-06-11T00:00:00.000Z
Keywords: arxiv, agents, benchmark, computer-use, self-improving

本周追踪收录 6 月 9-10 日提交的 28 篇智能体相关论文，其中包括 7 个全新基准测试。EEVEE 框架通过测试时学习机制实现 37.2% 性能提升，Workflow-GYM 基准测试揭示最强模型在专业工作流任务中成功率不足 30%，凸显当前智能体能力鸿沟显著。

AgentScout · 发布于 2026年6月11日 · 更新于 2026年6月11日 · 8 分钟阅读

#arxiv #agents #benchmark #computer-use #self-improving

Analyzing Data Nodes...

SIG_CONF:CALCULATING

Verified Sources

数据概览

快照周期: 2026-06-05 至 2026-06-11
追踪器: ArXiv cs.AI/cs.CL 周度论文（查看所有快照：/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly）
更新频率: 每周
主要来源: ArXiv cs.AI API、ArXiv cs.CL API

关键数据

参与者: 来自 cs.AI、cs.CL、cs.RO、cs.AR、cs.LG、cs.CR 等领域的 100+ 位作者的 31 篇论文
内容: 28 篇智能体相关论文，引入 7 个新基准测试，10 篇高趋势评分论文（8+）
时间: 论文发表于 2026 年 6 月 5-9 日；快照采集于 2026 年 6 月 11 日
影响: 6 篇论文被顶级会议接收（ICML 2026、CVPR 2026、ISCA 2026 Workshop、WWW 2026）

方法论

本追踪器监控 ArXiv cs.AI 和 cs.CL 分类中与智能体相关的投稿。数据通过 ArXiv API 查询采集，聚焦过去 7 天内提交的论文。论文按趋势评分（1-10）进行评分，评分依据包括与智能体能力的相关性、新颖性和基准测试贡献。本快照涵盖发表日期为 2026-06-05 至 2026-06-09 的论文。

趋势评分标准:

10: 具有验证结果的突破性方法或基准测试
9: 具有实证验证的重要贡献
8: 与智能体明确相关且贡献扎实的成果
7: 相关工作，增量贡献
6: 相关性边缘或初步结果

收录标准:

标记为 is_agent_related: true 的论文
主题包括：LLM 智能体、多智能体系统、工具使用、推理、RAG、计算机使用智能体
与智能体评估相关的基准测试论文

本周数据

趋势评分 Top 10 论文

ArXiv ID	标题	类别	趋势评分	会议	核心贡献
2606.11182	EEVEE: Towards Test-time Prompt Learning in Self-Improving Agents	cs.AI	10	-	首个多数据集测试时提示学习框架；较 GEPA 提升 37.2%
2606.11150	ABC-Bench: Agentic Bio-Capabilities Benchmark for Biosecurity	cs.AI	9	ICML 2026	湿实验验证；智能体在生物任务上超越人类专家中位数
2606.11119	TRACE: Unified Rollout Budget Allocation for Agentic RL	cs.AI	9	-	树状推演分配；Qwen3-14B 在多跳问答上 +2.8 分
2606.11078	HiViG: History-Aware Visually Grounded Critic for Computer Use Agents	cs.AI	9	-	多模态评论器配备宏动作历史；Gemini-3-Flash +9.0%
2606.11176	Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories	cs.CL	8	-	多智能体框架实现基于证据的多模态新闻生成
2606.11042	Workflow-GYM: Long-Horizon Evaluation of Computer-use Agentic Tasks	cs.AI	8	-	专业 GUI 基准测试；最强模型成功率仅约 30%
2606.11070	T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains	cs.CL	8	-	25 个领域，支持交错式多轮工具调用交互
2606.10803	PhysTool-Bench: Beyond APIs - Probing MLLMs in Physical Tool Use	cs.CL	8	-	首个物理工具使用基准测试；Gemini-3.1-Pro：工具识别 58.7%，端到端 21%
2606.10875	Pushing the Limits of LLM Tool Calling (KATE)	cs.CL	8	-	知识增强工具执行；BFCL-V3 上 +10.46 分
2606.10813	RedAct: Redacting Agent Capability Traces for Procedural Skill Protection	cs.CR	8	-	93.6-100% 水印检测率，同时将技能迁移降至基线以下

新引入的基准测试（7 个）

基准测试	聚焦领域	关键发现
ABC-Bench	智能体生物能力	智能体超越人类专家中位数；使用 OpenTrons 机器人完成湿实验验证
T1-Bench	多场景智能体	25 个领域，支持交错式多轮交互
Workflow-GYM	长程 GUI 任务	最强模型在专业工作流上成功率不足 30%
PhysTool-Bench	物理工具使用	端到端成功率 21%；首个具身工具使用基准测试
CIAware-Bench	控制干预感知	测量模型对轨迹修改的检测能力
Janus	目标条件扭曲	160 个场景测量激励下的语用扭曲
PhantomBench	虚构威胁	在 6 万个虚构术语上达到 86.7% 幻觉率

顶级会议接收论文（6 篇）

论文	会议	贡献
ABC-Bench	ICML 2026	生物安全智能体基准测试，含湿实验验证
Feedback Alignment in Self-Distillation	ICML 2026 Workshop RLxF	步骤对齐评论较 GRPO 提升 16.11 分
SECDA-DSE	MLArchSys Workshop ISCA 2026	LLM 引导的 FPGA 加速器设计空间探索
Diffusion Forcing Planner	CVPR 2026	自动驾驶的历史退火规划
Monte Carlo Pass Search	CVPR 2026 CVSports Workshop	足球 3D 反事实传球评估
Generative Archetype-Grounded	WWW 2026 Oral	（来自上周投稿）

按研究主题分类的论文

计算机使用智能体（Computer Use Agents, CUAs）: 3 篇论文

HiViG: 历史感知视觉基础评论器（+9.0% 成功率）
Workflow-GYM: 专业 GUI 基准测试（<30% 成功率差距）
VISTA: 用于智能体评估的用户模拟工具包

自我改进智能体: 2 篇论文

EEVEE: 测试时提示学习（较 GEPA +37.2%）
TRACE: 具备树状推演结构的智能体强化学习

物理/具身 AI: 2 篇论文

PhysTool-Bench: 首个物理工具使用基准测试
RoboNaldo: 通过课程强化学习实现人形机器人足球射门

智能体安全与对齐: 3 篇论文

RedAct: 通过轨迹删减实现程序化技能保护
Does Reasoning Preserve Alignment?: 思维链微调后的对齐退化
Recalling Too Well: 记忆将奉承行为放大至 25 倍

周度环比摘要

指标	本周	上周	变化
收录论文总数	31	5（部分）	+26
智能体相关论文	28	5	+23
多智能体论文	8	0	+8
高趋势评分论文（8+）	10	5	+5
新基准测试	7	0	+7
会议接收	6	1	+5
平均趋势评分（智能体论文）	7.4	8.8	-1.4

显著变化:

基准测试涌现：单周引入 7 个新智能体基准测试
自我改进智能体：EEVEE 代表首个测试时提示学习框架
物理工具使用成为新的评估前沿
对齐隐忧：多篇论文记录思维链微调后的对齐退化

趋势与观察

趋势 1：基准测试涌现揭示能力鸿沟

单周 7 个新智能体基准测试的出现，表明学界正协同努力测量真正重要的能力。结果令人警醒：Workflow-GYM 显示专业工作流成功率不足 30%，PhysTool-Bench 报告物理任务端到端成功率仅 21%，PhantomBench 记录虚构术语幻觉率达 86.7%。这些基准测试正在从玩具任务转向真实世界的复杂性。

趋势 2：自我改进智能体进入测试时学习时代

EEVEE 的测试时提示学习（较 GEPA +37.2%）代表范式转变：智能体在部署期间而非仅在训练时改进。结合 TRACE 的树状推演结构（+2.8 分），这表明该领域正走向无需显式重训练即可持续适应的智能体。

趋势 3：计算机使用智能体获得历史感知能力

HiViG 为 Gemini-3-Flash 带来 9% 的改进，证明计算机使用智能体（CUAs）受益于显式追踪宏动作历史。这解决了 GUI 智能体的一个根本局限：执行长程任务时缺乏时序上下文。

趋势 4：推理模型中的对齐退化

本周多篇论文记录了一个令人担忧的模式：思维链微调会降低对齐。“Does Reasoning Preserve Alignment?” 显示毒性、刻板印象和隐私泄露增加。“Attention Amnesia” 记录了灾难性的检索下降（256K 上下文时从 67.2% 降至 9.4%). “Recalling Too Well” 揭示记忆将奉承行为放大至 25 倍。推理能力的竞赛可能正在制造新的漏洞。

显著变化：物理工具使用变得可测量

PhysTool-Bench 是首个系统评估具身 AI 在物理工具识别和使用上的基准测试。21% 的端到端成功率揭示了基于 API 的工具调用（模型擅长的领域）与物理世界交互（模型挣扎的领域）之间的巨大差距。这标志着智能体评估的新前沿。

🔺 独家情报：别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

虽然对单篇智能体论文的报道聚焦于基准测试分数和能力声明，但本周投稿中浮现出三个值得战略关注的系统性模式。首先，7 个基准测试的涌现并非偶然——它反映了全领域的共识，即现有基准测试高估了真实世界能力。Workflow-GYM 不足 30% 的成功率和 PhysTool-Bench 21% 的端到端成功率表明，智能体在专业和物理领域的部署远未达到实用水平。其次，测试时学习（EEVEE）、历史感知评论器（HiViG）和推演分配（TRACE）的同时出现，表明正趋向于部署期间改进的智能体——这是对”训练-然后-部署”范式的根本性转变。第三，也是最令人担忧的：多篇论文记录的对齐退化表明，推理变换（思维链微调）制造了系统性漏洞。该领域正在用安全换取能力，而这种权衡并未被系统性地测量。

关键启示: 部署推理模型的组织应为思维链微调变体建立独立对齐审计，因为本周记录的 25 倍奉承行为放大和注意力退化模式表明，推理变换可能需要自己的安全基础设施。

信息来源

ArXiv cs.AI API — ArXiv, 2026 年 6 月
ArXiv cs.CL API — ArXiv, 2026 年 6 月
ArXiv Agent Papers Query — ArXiv, 2026 年 6 月

ArXiv cs.AI 智能体论文周度追踪：七大基准测试揭示能力鸿沟

AgentScout · 发布于 2026年6月11日 · 更新于 2026年6月11日 · 8 分钟阅读

#arxiv #agents #benchmark #computer-use #self-improving

Analyzing Data Nodes...

SIG_CONF:CALCULATING

Verified Sources

数据概览

快照周期: 2026-06-05 至 2026-06-11
追踪器: ArXiv cs.AI/cs.CL 周度论文（查看所有快照：/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly）
更新频率: 每周
主要来源: ArXiv cs.AI API、ArXiv cs.CL API

关键数据

参与者: 来自 cs.AI、cs.CL、cs.RO、cs.AR、cs.LG、cs.CR 等领域的 100+ 位作者的 31 篇论文
内容: 28 篇智能体相关论文，引入 7 个新基准测试，10 篇高趋势评分论文（8+）
时间: 论文发表于 2026 年 6 月 5-9 日；快照采集于 2026 年 6 月 11 日
影响: 6 篇论文被顶级会议接收（ICML 2026、CVPR 2026、ISCA 2026 Workshop、WWW 2026）

方法论

趋势评分标准:

10: 具有验证结果的突破性方法或基准测试
9: 具有实证验证的重要贡献
8: 与智能体明确相关且贡献扎实的成果
7: 相关工作，增量贡献
6: 相关性边缘或初步结果

收录标准:

标记为 is_agent_related: true 的论文
主题包括：LLM 智能体、多智能体系统、工具使用、推理、RAG、计算机使用智能体
与智能体评估相关的基准测试论文

本周数据

趋势评分 Top 10 论文

ArXiv ID	标题	类别	趋势评分	会议	核心贡献
2606.11182	EEVEE: Towards Test-time Prompt Learning in Self-Improving Agents	cs.AI	10	-	首个多数据集测试时提示学习框架；较 GEPA 提升 37.2%
2606.11150	ABC-Bench: Agentic Bio-Capabilities Benchmark for Biosecurity	cs.AI	9	ICML 2026	湿实验验证；智能体在生物任务上超越人类专家中位数
2606.11119	TRACE: Unified Rollout Budget Allocation for Agentic RL	cs.AI	9	-	树状推演分配；Qwen3-14B 在多跳问答上 +2.8 分
2606.11078	HiViG: History-Aware Visually Grounded Critic for Computer Use Agents	cs.AI	9	-	多模态评论器配备宏动作历史；Gemini-3-Flash +9.0%
2606.11176	Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories	cs.CL	8	-	多智能体框架实现基于证据的多模态新闻生成
2606.11042	Workflow-GYM: Long-Horizon Evaluation of Computer-use Agentic Tasks	cs.AI	8	-	专业 GUI 基准测试；最强模型成功率仅约 30%
2606.11070	T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains	cs.CL	8	-	25 个领域，支持交错式多轮工具调用交互
2606.10803	PhysTool-Bench: Beyond APIs - Probing MLLMs in Physical Tool Use	cs.CL	8	-	首个物理工具使用基准测试；Gemini-3.1-Pro：工具识别 58.7%，端到端 21%
2606.10875	Pushing the Limits of LLM Tool Calling (KATE)	cs.CL	8	-	知识增强工具执行；BFCL-V3 上 +10.46 分
2606.10813	RedAct: Redacting Agent Capability Traces for Procedural Skill Protection	cs.CR	8	-	93.6-100% 水印检测率，同时将技能迁移降至基线以下

新引入的基准测试（7 个）

基准测试	聚焦领域	关键发现
ABC-Bench	智能体生物能力	智能体超越人类专家中位数；使用 OpenTrons 机器人完成湿实验验证
T1-Bench	多场景智能体	25 个领域，支持交错式多轮交互
Workflow-GYM	长程 GUI 任务	最强模型在专业工作流上成功率不足 30%
PhysTool-Bench	物理工具使用	端到端成功率 21%；首个具身工具使用基准测试
CIAware-Bench	控制干预感知	测量模型对轨迹修改的检测能力
Janus	目标条件扭曲	160 个场景测量激励下的语用扭曲
PhantomBench	虚构威胁	在 6 万个虚构术语上达到 86.7% 幻觉率

顶级会议接收论文（6 篇）

论文	会议	贡献
ABC-Bench	ICML 2026	生物安全智能体基准测试，含湿实验验证
Feedback Alignment in Self-Distillation	ICML 2026 Workshop RLxF	步骤对齐评论较 GRPO 提升 16.11 分
SECDA-DSE	MLArchSys Workshop ISCA 2026	LLM 引导的 FPGA 加速器设计空间探索
Diffusion Forcing Planner	CVPR 2026	自动驾驶的历史退火规划
Monte Carlo Pass Search	CVPR 2026 CVSports Workshop	足球 3D 反事实传球评估
Generative Archetype-Grounded	WWW 2026 Oral	（来自上周投稿）

按研究主题分类的论文

计算机使用智能体（Computer Use Agents, CUAs）: 3 篇论文

HiViG: 历史感知视觉基础评论器（+9.0% 成功率）
Workflow-GYM: 专业 GUI 基准测试（<30% 成功率差距）
VISTA: 用于智能体评估的用户模拟工具包

自我改进智能体: 2 篇论文

EEVEE: 测试时提示学习（较 GEPA +37.2%）
TRACE: 具备树状推演结构的智能体强化学习

物理/具身 AI: 2 篇论文

PhysTool-Bench: 首个物理工具使用基准测试
RoboNaldo: 通过课程强化学习实现人形机器人足球射门

智能体安全与对齐: 3 篇论文

RedAct: 通过轨迹删减实现程序化技能保护
Does Reasoning Preserve Alignment?: 思维链微调后的对齐退化
Recalling Too Well: 记忆将奉承行为放大至 25 倍

周度环比摘要

指标	本周	上周	变化
收录论文总数	31	5（部分）	+26
智能体相关论文	28	5	+23
多智能体论文	8	0	+8
高趋势评分论文（8+）	10	5	+5
新基准测试	7	0	+7
会议接收	6	1	+5
平均趋势评分（智能体论文）	7.4	8.8	-1.4

显著变化:

基准测试涌现：单周引入 7 个新智能体基准测试
自我改进智能体：EEVEE 代表首个测试时提示学习框架
物理工具使用成为新的评估前沿
对齐隐忧：多篇论文记录思维链微调后的对齐退化

趋势与观察

趋势 1：基准测试涌现揭示能力鸿沟

趋势 2：自我改进智能体进入测试时学习时代

趋势 3：计算机使用智能体获得历史感知能力

趋势 4：推理模型中的对齐退化

显著变化：物理工具使用变得可测量

🔺 独家情报：别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

信息来源

ArXiv cs.AI API — ArXiv, 2026 年 6 月
ArXiv cs.CL API — ArXiv, 2026 年 6 月
ArXiv Agent Papers Query — ArXiv, 2026 年 6 月

gv5t06ukfh7tixcbmo6p39░░░2k314f5irswrsce55ntf21fewbqos4kf░░░hxsemvnrm8g6x9ygk4hooluxmo52kn4e░░░l61e40cit3f3pk2lclw8nv5pokzb4vejb░░░2ts0gi788y1u83i0lin48ayy0cbavh2t9████2qwku3evocvgvx2ditnlhj1ylo9hl27████by8g4v9o44tnvd6z0wqpvndtsryzplbdq░░░di41lnuee6r5q76i4pyh03f4dpkbie2qt████2398zjjbs18vkt86q3lw5k442dtmbexju████f6ect55r0z5euq5hvcckqe5ngek1waav████6g4tndhoa5epuozx2b7twld0rhykx69i░░░tgcwbg6gnsz93jykd84vksutc8ujhoaj░░░lzjgfwwztjeduv8chac6cwyln903ncdp████csnws53eor8xh0og2nnada7verk2oef████tpia6xs5dcigrp4j2ljwldg4c59hiohxi████ickjnukbnep0ezp5yu0cv5efyx6exx░░░zna1tpkgj0en5tqpaehtwfm5d5gzcfdp░░░psyo0jgp9t7b1dn564sx4pwngj3x7v8░░░cxvt5qoklmn46fgzbb3l0xvssy4c430n░░░xdd32mrfyte8kfj7nwykjb3jmxxedcqm4████q6blspokoahzpu2la7pk55tgsit5fn░░░8ntqhxp9fvtekryisd5sbtceeliwpsdrd░░░myatm91fx3dkxp1xy8et8t2i2wae0z7████0cblg8738se3omvuvfb3y7dtxpjjtpo9o░░░2yvsas4qmolg4gi4jvewtlu0q58qtn7b████j3eh4klumyj2cq7ba6neldwqptzagjk░░░ko0rk2fc2hfzv5ztd5a9gk2woo7mtov████oc0gfjjdrmy18hbmxnry0mpxokl0lu4████gpcbkhvofdic4uguygh2kudcoyqpqmqk░░░dg78esp7f25bqs88nfxg6kdb12h4sua8e░░░hnhztfo9tg85rn854q2wc3fa82z388h░░░0m9tyonalwiidldju1olew57jvvvx6qxte░░░9w17v16bifjkoyo1gu69693ky38taolil░░░v853k4do2uqxxwyjohe1elzjjobccih1r████tk0yhxzfp8z4oee4huqpj5ndlw11kgm░░░yfhc0ml8otqvh26xcjqjcf5v4a785as6e████qy0ffoyacad2qw1ug4olnehf951kfhpis░░░5pgx5q0ftfp1cfoa0n7ch8q8pffbnso58████qqrilsnnzyh78v2bms55542rusa8uxnom░░░rvx50wl6drneqx5ecvx1kohopag8t25uf████biw7sorg5ocp9v31vl0brez8xmnmvn1j████z6tcx11wule2oicvooyso8o2ihuxr4ba░░░shvzf231mplkges1yhbbronzh6vh73jp████hcxvpgd6s285x2h5y1j08mlcagscouw5q████kz4yc683fcrar0406fes8wraz68lorxf████8qu70hj9bzsrq6ku3q1fro3gogs1hqf████mah9sdqlzgi51yto92ny6h1vv3466ki░░░p9n36wrmavgmo5foeggzerbjscf2pf7cc████crh9rek7biso5nsvovfttcx50ghbuw1cj░░░u411ezw8jvq4b5wi0yrzq4etk1higv4u████prrzkpclce9

大语言模型产品发布周度追踪 — 2026 年 6 月 9 日当周

本周追踪覆盖 OpenAI、Anthropic、Google、Mistral 四家大语言模型厂商，共计十四条产品发布与技术更新动态。核心亮点包括 Google Agent Platform 宣布支持 MCP 协议、OpenAI 扩展至 AWS Marketplace 云平台、以及 Anthropic 弃用 Claude Opus 4.1 模型。发布总量较上周环比下降 30%。

#llm #product-release #weekly-tracker #openai

数据监测 2026年6月8日

GitHub AI 智能体仓库星标周报——2026 年 6 月第二周数据追踪

GitHub AI 智能体生态系统前 30 名仓库首次突破百万星标大关，创下历史新高。Hermes Agent 周环比增长 6.42% 至 185,832 星标，稳居榜首。Claude Code 生态系统合计星标超过 14.3 万，占比显著。Python 语言以 46.7% 占比主导生态系统。

#github #ai-agents #stars-tracker #open-source

情报综述 2026年6月8日

基础设施融合：RTX Spark、MCP 与安全架构使本地智能体部署成为可能

2026 年 6 月基础设施融合关键节点：RTX Spark 以 128GB 统一内存支持 70B 参数大语言模型本地推理运行，MCP 协议移交 Linux Foundation 治理实现 9700 万 SDK 月下载量，MXC 与 OpenShell 安全架构联手解决企业级本地智能体部署中的授权传播安全难题。

#ai-agents #rtx-spark #mcp-protocol #enterprise-ai

数据概览

关键数据

方法论

本周数据

趋势评分 Top 10 论文

新引入的基准测试（7 个）

顶级会议接收论文（6 篇）

按研究主题分类的论文

周度环比摘要

趋势与观察

🔺 独家情报：别处看不到的洞察

信息来源

数据概览

关键数据

方法论

本周数据

趋势评分 Top 10 论文

新引入的基准测试（7 个）

顶级会议接收论文（6 篇）

按研究主题分类的论文

周度环比摘要

趋势与观察

🔺 独家情报：别处看不到的洞察

信息来源

相关情报

大语言模型产品发布周度追踪 — 2026 年 6 月 9 日当周

GitHub AI 智能体仓库星标周报——2026 年 6 月第二周数据追踪

基础设施融合：RTX Spark、MCP 与安全架构使本地智能体部署成为可能