AgentScout Logo Agent Scout

ArXiv cs.AI 周报(2026 年 6 月 4 日当周):自演进智能体框架与多智能体治理

本周收录 31 篇论文,其中智能体相关论文 25 篇(占比 81%)。主要趋势:自演进智能体框架集中涌现(含 EvoDS、SkillPyramid、EvoDrive),LAP 协议填补智能体到仪器通信缺口,领域专用基准测试揭示前沿模型在专业任务上的能力局限。

AgentScout ·
#arxiv #ai-agents #papers #weekly-tracker #self-evolving-agents #multi-agent-systems
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概览

  • 快照周期: 2026-05-28 至 2026-06-04
  • 追踪器: ArXiv cs.AI 周度论文(查看所有快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率: 每周
  • 主要来源: ArXiv cs.AIArXiv cs.CL

关键数据

  • 收录范围: 从 ArXiv cs.AI 和 cs.CL 分类收录 31 篇论文
  • 核心内容: 智能体相关论文 25 篇(81%),包含 12 篇多智能体论文和 5 个自演进智能体框架
  • 时间范围: 2026 年 5 月 28 日至 6 月 4 日当周
  • 研究影响: 3 个新基准测试,1 个新协议(LAP),7 篇论文已被会议录用

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

三篇自演进智能体论文(EvoDS、SkillPyramid、EvoDrive)在同一周出现,标志着智能体架构从静态设计向自主技能获取转变。LAP 协议填补了大多数报道忽视的缺口:智能体到仪器的通信。当 MCP 处理模型到工具、A2A 处理智能体到智能体时,LAP 针对自主科学研究所需的物理仪器边缘场景。Hedge-Bench 显示前沿模型在真实对冲基金任务上不足 16% 的表现,暴露了基准测试成功与专业领域能力之间的差距。

关键洞察: 智能体框架正进入整合阶段,自主技能获取和标准化协议正在取代手动提示工程。40% 的研究集中于自演进系统,表明该领域已认识到静态智能体能力的当前局限。

本周论文

趋势评分排名

#标题ArXiv ID趋势评分会议/改进
1EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management2606.0384110KDD 2026,较 SOTA +28.9%
2SkillPyramid: Hierarchical Skill Consolidation for Self-Evolving Agents2606.036929奖励 +38.0%,步数 -27.7%
3LAP: Agent-to-Instrument Protocol for Autonomous Science2606.037559新协议
4GAIATrace + Vidur-Agent: Multi-Model Agentic AI Systems Characterization2606.017258GAIATrace 数据集,Vidur-Agent 模拟器
5Unified Context Evolution for LLM Agents2606.023048ALFWorld: 75.4% → 96.3%
6EvoDrive: Pareto Evolution for Safety-Critical Autonomous Driving2606.036788自改进 LLM 智能体
7Hedge-Bench: Benchmarking Agents on Financial Reasoning Tasks2606.039187102 项任务,前沿模型 <16%
8NovelAPIBench: Diagnosing Knowledge Gaps in LLM Tool Use2606.0365771.9K 任务,5 个领域
9Uncertainty-Aware Clarification with Information Gain2606.031357ICML 2026,成功率 +3.7%
10Agentic CLEAR: Multi-Level Evaluation of LLM Agents2605.226087ACL

自演进智能体框架

EvoDS (2606.03841) — Zherui Yang, Fan Liu, Yansong Ning, Hao Liu — KDD 2026

  • 研究方向: 具备技能学习和自适应上下文压缩的自主数据科学
  • 核心创新: 无需人工干预即可获取技能的自演进框架
  • 性能表现: 在数据科学基准测试中较 SOTA +28.9%

SkillPyramid (2606.03692) — Yuan Xiong et al.

  • 研究方向: 实现可复用经验的分层技能整合
  • 核心创新: 支持组合和复用的多层次技能层次结构
  • 性能表现: 在 ALFWorld 和 WebShop 上奖励提升 +38.0%,步数减少 -27.7%

Unified Context Evolution (2606.02304) — Zixuan Zhu et al.

  • 研究方向: 将智能体经验外化的无梯度框架
  • 核心创新: 用于记忆管理的类型化可演进上下文单元
  • 性能表现: ALFWorld 75.4% → 96.3%,WebShop 45.1% → 61.3%

EvoDrive (2606.03678) — Tong Nie et al.

  • 研究方向: 安全关键自动驾驶场景生成
  • 核心创新: 通过自改进 LLM 智能体实现帕累托演进
  • 应用领域: 自动驾驶

多智能体系统与治理

LAP Protocol (2606.03755) — Linwu Zhu et al.

  • 类型: 智能体到仪器协议
  • 填补缺口: 补充 MCP(模型到工具)和 A2A(智能体到智能体)
  • 应用场景: 自主科学仪器

GAIATrace + Vidur-Agent (2606.01725) — Donghwan Kim et al.

  • 产出: 首个多模型智能体系统的 Token 级追踪数据集
  • 工具: 用于可复现实验的 Vidur-Agent 模拟器
  • 基准: GAIA

Constraint State Governance (2605.10481) — Tianxiao Li

  • 研究方向: LLM 多智能体系统的安全性
  • 范式: 通过状态治理防止约束漂移
  • 关键洞察: 安全行为必须持续维护,而非仅作声明

12 Angry AI Agents (2605.01986) — Ahmet Bahaddin Ersoz

  • 基准测试: 使用电影陪审团审议的多智能体决策
  • 发现: 17/18 次运行导致陪审团僵局;锚定效应是主要失败模式
  • 洞察: RLHF 强度决定审议灵活性

基准测试与评估

基准测试领域规模关键发现
Hedge-Bench (2606.03918)金融推理102 项任务前沿智能体 <16%
NovelAPIBench (2606.03657)工具使用知识缺口1.9K 任务6 个诊断类别
GAIATrace (2606.01725)多智能体追踪Token 级首个追踪数据集
BigFinanceBench (2606.03829)金融研究工作流-工作流驱动

协议与基础设施

LAP(智能体到仪器协议)

  • ArXiv: 2606.03755
  • 填补缺口: 填补智能体到仪器通信边缘场景
  • 关系: 补充 MCP(Anthropic)和 A2A(Google)
  • 应用场景: 自主科学研究

OpenAPI 文档智能体就绪

  • ArXiv: 2605.14312 — EASE 2026
  • 工具: Hermes 多智能体系统
  • 结果: 在 600 个端点中检测到 2,450 个代码异味
  • 目的: MCP 智能体就绪

Continuum(KV Cache TTL)

  • ArXiv: 2511.02230
  • 研究方向: 多轮智能体调度
  • 性能表现: 作业完成时间提升 8 倍

周度对比摘要

指标本周上周变化
论文总数315(部分)+26
智能体相关论文255+20
多智能体论文121+11
自演进智能体50新增
平均趋势评分(智能体)6.47.2-0.8
已录用论文(会议)71+6

本周新增亮点:

  • EvoDS(KDD 2026)— 首个被会议录用的自演进数据科学智能体
  • LAP 协议 — 新协议类别(智能体到仪器)
  • Hedge-Bench — 揭示前沿模型在专业任务上的差距
  • SkillPyramid — 分层技能整合框架

上周论文(排名下降):

  • MUSE-Autoskill (2605.27366) — 趋势评分: 8 → N/A
  • SIA (2605.27276) — 趋势评分: 8 → N/A
  • FinHarness (2605.27333) — 趋势评分: 7 → N/A
  • QUACK (2605.27068) — 趋势评分: 7 → N/A
  • Alignment Tampering (2605.27355) — 趋势评分: 6 → N/A

趋势与洞察

  1. 自演进智能体框架涌现: 3 篇重要论文(EvoDS、SkillPyramid、EvoDrive)聚焦自主技能获取,占趋势评分前 10 名的 40%

  2. 多智能体治理初现: LAP 协议填补智能体到仪器缺口,Constraint State Governance 针对 LLM 多智能体系统的安全性

  3. 领域专用基准测试 proliferate: Hedge-Bench(金融)、NovelAPIBench(工具使用)、BigFinanceBench 揭示专用评估需求

  4. 上下文管理至关重要: Unified Context Evolution 通过类型化可演进上下文单元在 ALFWorld 上达到 96.3%

  5. 多智能体刻画工具: GAIATrace + Vidur-Agent 实现多模型智能体系统的可复现模拟

  6. RLHF 对齐强度关键: 12 Angry AI Agents 显示对齐水平决定多智能体场景中的审议灵活性

类别分布

类别数量占比
cs.AI1858%
cs.CL413%
cs.MA413%
cs.SE26%
cs.DC13%
cs.OS13%
其他13%

已录用论文(含会议)

论文会议ArXiv ID
EvoDSKDD 20262606.03841
Uncertainty-Aware ClarificationICML 20262606.03135
Agentic CLEARACL2605.22608
Cattle TradeICLR 2026 Workshop2605.14537
OpenAPI DocumentationEASE 20262605.14312
LLM Agent SystemsIEEE AIIoT 20252505.16120
When to Re-PlanICML 2026 Workshop2606.03741

历史快照

这是 ArXiv cs.AI 周度追踪器的首个快照。后续快照将在此链接。


信息来源


最后更新: 2026-06-04,由 AgentScout 自动追踪器生成。采集时长: 180 秒。来源: 2/4 成功(ArXiv 直接 API 受速率限制,HuggingFace 返回 404)。

ArXiv cs.AI 周报(2026 年 6 月 4 日当周):自演进智能体框架与多智能体治理

本周收录 31 篇论文,其中智能体相关论文 25 篇(占比 81%)。主要趋势:自演进智能体框架集中涌现(含 EvoDS、SkillPyramid、EvoDrive),LAP 协议填补智能体到仪器通信缺口,领域专用基准测试揭示前沿模型在专业任务上的能力局限。

AgentScout ·
#arxiv #ai-agents #papers #weekly-tracker #self-evolving-agents #multi-agent-systems
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概览

  • 快照周期: 2026-05-28 至 2026-06-04
  • 追踪器: ArXiv cs.AI 周度论文(查看所有快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率: 每周
  • 主要来源: ArXiv cs.AIArXiv cs.CL

关键数据

  • 收录范围: 从 ArXiv cs.AI 和 cs.CL 分类收录 31 篇论文
  • 核心内容: 智能体相关论文 25 篇(81%),包含 12 篇多智能体论文和 5 个自演进智能体框架
  • 时间范围: 2026 年 5 月 28 日至 6 月 4 日当周
  • 研究影响: 3 个新基准测试,1 个新协议(LAP),7 篇论文已被会议录用

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

三篇自演进智能体论文(EvoDS、SkillPyramid、EvoDrive)在同一周出现,标志着智能体架构从静态设计向自主技能获取转变。LAP 协议填补了大多数报道忽视的缺口:智能体到仪器的通信。当 MCP 处理模型到工具、A2A 处理智能体到智能体时,LAP 针对自主科学研究所需的物理仪器边缘场景。Hedge-Bench 显示前沿模型在真实对冲基金任务上不足 16% 的表现,暴露了基准测试成功与专业领域能力之间的差距。

关键洞察: 智能体框架正进入整合阶段,自主技能获取和标准化协议正在取代手动提示工程。40% 的研究集中于自演进系统,表明该领域已认识到静态智能体能力的当前局限。

本周论文

趋势评分排名

#标题ArXiv ID趋势评分会议/改进
1EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management2606.0384110KDD 2026,较 SOTA +28.9%
2SkillPyramid: Hierarchical Skill Consolidation for Self-Evolving Agents2606.036929奖励 +38.0%,步数 -27.7%
3LAP: Agent-to-Instrument Protocol for Autonomous Science2606.037559新协议
4GAIATrace + Vidur-Agent: Multi-Model Agentic AI Systems Characterization2606.017258GAIATrace 数据集,Vidur-Agent 模拟器
5Unified Context Evolution for LLM Agents2606.023048ALFWorld: 75.4% → 96.3%
6EvoDrive: Pareto Evolution for Safety-Critical Autonomous Driving2606.036788自改进 LLM 智能体
7Hedge-Bench: Benchmarking Agents on Financial Reasoning Tasks2606.039187102 项任务,前沿模型 <16%
8NovelAPIBench: Diagnosing Knowledge Gaps in LLM Tool Use2606.0365771.9K 任务,5 个领域
9Uncertainty-Aware Clarification with Information Gain2606.031357ICML 2026,成功率 +3.7%
10Agentic CLEAR: Multi-Level Evaluation of LLM Agents2605.226087ACL

自演进智能体框架

EvoDS (2606.03841) — Zherui Yang, Fan Liu, Yansong Ning, Hao Liu — KDD 2026

  • 研究方向: 具备技能学习和自适应上下文压缩的自主数据科学
  • 核心创新: 无需人工干预即可获取技能的自演进框架
  • 性能表现: 在数据科学基准测试中较 SOTA +28.9%

SkillPyramid (2606.03692) — Yuan Xiong et al.

  • 研究方向: 实现可复用经验的分层技能整合
  • 核心创新: 支持组合和复用的多层次技能层次结构
  • 性能表现: 在 ALFWorld 和 WebShop 上奖励提升 +38.0%,步数减少 -27.7%

Unified Context Evolution (2606.02304) — Zixuan Zhu et al.

  • 研究方向: 将智能体经验外化的无梯度框架
  • 核心创新: 用于记忆管理的类型化可演进上下文单元
  • 性能表现: ALFWorld 75.4% → 96.3%,WebShop 45.1% → 61.3%

EvoDrive (2606.03678) — Tong Nie et al.

  • 研究方向: 安全关键自动驾驶场景生成
  • 核心创新: 通过自改进 LLM 智能体实现帕累托演进
  • 应用领域: 自动驾驶

多智能体系统与治理

LAP Protocol (2606.03755) — Linwu Zhu et al.

  • 类型: 智能体到仪器协议
  • 填补缺口: 补充 MCP(模型到工具)和 A2A(智能体到智能体)
  • 应用场景: 自主科学仪器

GAIATrace + Vidur-Agent (2606.01725) — Donghwan Kim et al.

  • 产出: 首个多模型智能体系统的 Token 级追踪数据集
  • 工具: 用于可复现实验的 Vidur-Agent 模拟器
  • 基准: GAIA

Constraint State Governance (2605.10481) — Tianxiao Li

  • 研究方向: LLM 多智能体系统的安全性
  • 范式: 通过状态治理防止约束漂移
  • 关键洞察: 安全行为必须持续维护,而非仅作声明

12 Angry AI Agents (2605.01986) — Ahmet Bahaddin Ersoz

  • 基准测试: 使用电影陪审团审议的多智能体决策
  • 发现: 17/18 次运行导致陪审团僵局;锚定效应是主要失败模式
  • 洞察: RLHF 强度决定审议灵活性

基准测试与评估

基准测试领域规模关键发现
Hedge-Bench (2606.03918)金融推理102 项任务前沿智能体 <16%
NovelAPIBench (2606.03657)工具使用知识缺口1.9K 任务6 个诊断类别
GAIATrace (2606.01725)多智能体追踪Token 级首个追踪数据集
BigFinanceBench (2606.03829)金融研究工作流-工作流驱动

协议与基础设施

LAP(智能体到仪器协议)

  • ArXiv: 2606.03755
  • 填补缺口: 填补智能体到仪器通信边缘场景
  • 关系: 补充 MCP(Anthropic)和 A2A(Google)
  • 应用场景: 自主科学研究

OpenAPI 文档智能体就绪

  • ArXiv: 2605.14312 — EASE 2026
  • 工具: Hermes 多智能体系统
  • 结果: 在 600 个端点中检测到 2,450 个代码异味
  • 目的: MCP 智能体就绪

Continuum(KV Cache TTL)

  • ArXiv: 2511.02230
  • 研究方向: 多轮智能体调度
  • 性能表现: 作业完成时间提升 8 倍

周度对比摘要

指标本周上周变化
论文总数315(部分)+26
智能体相关论文255+20
多智能体论文121+11
自演进智能体50新增
平均趋势评分(智能体)6.47.2-0.8
已录用论文(会议)71+6

本周新增亮点:

  • EvoDS(KDD 2026)— 首个被会议录用的自演进数据科学智能体
  • LAP 协议 — 新协议类别(智能体到仪器)
  • Hedge-Bench — 揭示前沿模型在专业任务上的差距
  • SkillPyramid — 分层技能整合框架

上周论文(排名下降):

  • MUSE-Autoskill (2605.27366) — 趋势评分: 8 → N/A
  • SIA (2605.27276) — 趋势评分: 8 → N/A
  • FinHarness (2605.27333) — 趋势评分: 7 → N/A
  • QUACK (2605.27068) — 趋势评分: 7 → N/A
  • Alignment Tampering (2605.27355) — 趋势评分: 6 → N/A

趋势与洞察

  1. 自演进智能体框架涌现: 3 篇重要论文(EvoDS、SkillPyramid、EvoDrive)聚焦自主技能获取,占趋势评分前 10 名的 40%

  2. 多智能体治理初现: LAP 协议填补智能体到仪器缺口,Constraint State Governance 针对 LLM 多智能体系统的安全性

  3. 领域专用基准测试 proliferate: Hedge-Bench(金融)、NovelAPIBench(工具使用)、BigFinanceBench 揭示专用评估需求

  4. 上下文管理至关重要: Unified Context Evolution 通过类型化可演进上下文单元在 ALFWorld 上达到 96.3%

  5. 多智能体刻画工具: GAIATrace + Vidur-Agent 实现多模型智能体系统的可复现模拟

  6. RLHF 对齐强度关键: 12 Angry AI Agents 显示对齐水平决定多智能体场景中的审议灵活性

类别分布

类别数量占比
cs.AI1858%
cs.CL413%
cs.MA413%
cs.SE26%
cs.DC13%
cs.OS13%
其他13%

已录用论文(含会议)

论文会议ArXiv ID
EvoDSKDD 20262606.03841
Uncertainty-Aware ClarificationICML 20262606.03135
Agentic CLEARACL2605.22608
Cattle TradeICLR 2026 Workshop2605.14537
OpenAPI DocumentationEASE 20262605.14312
LLM Agent SystemsIEEE AIIoT 20252505.16120
When to Re-PlanICML 2026 Workshop2606.03741

历史快照

这是 ArXiv cs.AI 周度追踪器的首个快照。后续快照将在此链接。


信息来源


最后更新: 2026-06-04,由 AgentScout 自动追踪器生成。采集时长: 180 秒。来源: 2/4 成功(ArXiv 直接 API 受速率限制,HuggingFace 返回 404)。

r0a31o0b1gei7i3zgolgt░░░k827f1hps6ntzm1y9267mh3m6rjv71alp████g93texar0mnmvgma4gbh86csnmud2dne████vc8c7r28g782tvqukgj5tn7pwnau5ks████gekn2djz63mjjd25hk8srim05ml692k░░░rrawcqtfxcr5hnifokrkdo6vdik65j9v░░░uf3l3bhclunj52kj7i4xiuang8w2y9c████l7nf13bm57cf9p8dekm2qjqef2bzlcp████php2xjd1ftjanuaj5puh7xuimjw3bj2████bilo4d6q1grma21apu9xa04meh1bvuqjx████ecvxhxowypc0jffchfr99ex4aawr1qbxp████uzifke44jit7kxbry0m9djqtfev0rb4sm░░░x2erw9si9uoxt4wtctpkpl2e4h3k65ti░░░jgkrhodeglp0en5zig6xhc2dgriz49████pmzjs9wmmali5mo035srcba8lkoweyua6████ue9nm9yaulodmdkgn9sau59vge6f2g0sa████65a6li3x8c7ng1atg7plcb3jry38odrhb████a66h7rux7qg7j39u5dl8ulw0a9ngkorg░░░uak9ee81wy8makyd53sdv6myk6aqruw████srvlfbloa6j9asr0mmvs9h81qxm88saa████z1c65pgbmyql1q8zcfj3mu51zegs0cbk░░░b7aybhsjnk9u1d92cr6f3d9klfmmid1s░░░j2079d6x3k93cw0nppz2vajmvgogkmt5████8drg5lqt21l1i36tmkutzj7ms4ntdoe7o░░░v1u4phjnhebcgv42lb5afn9bms5pvw0hr░░░x1v66k9y79csnd8v9w85ojpayhu4kxf░░░mwpjxtjia2lh134y4gezrk5kfukjz29m░░░54h3r3y4jfin3ill31njnqq8vrluydz2e░░░l5mqagcvdwm61kynheubnrawnatnr01░░░95900xrqgpmzzih35tlcoholfzhoncloe░░░63wac1mmdod4dbrnxthsdbjolk30n3h░░░oxaji62jic95zwvsxmx0u7fcc7rgektv░░░nq4rmspb8nlzi2xtizm5wh0t9792ozy4████zxjuuotujec1jboxwa8vpoq4gjcthdqk8░░░k3im93eysuhodcrpe4j3uwa4auvsxos████x45b6u2o5jhzrszlkqisanin13h2j8yb░░░4vezkmia692y7g962wqgv1n46zdmmlmr░░░tlmidjypc2nsjo990y5vljzhavuiufao████tqyi16jg5sc987h9hfuejbecgjiif67m░░░09ah08whr3hpfppm5ciawliyhbxlznuzme████m0hrjc2rxazjm8zkkshwoicx4oh69r8████084hz3vj6449tlkaytatkhjk09739z66tk████pu7lu84rlscqudk8fe9s4hqjmp0h5q8r░░░25pp9z44k8nhjpc6djgomipfcamgtz4x░░░nb9qloxjpek9rksn7c71jv9zoh6f7amr░░░u36rf4zhmbf2w3m3tcxj1aq9eqtu4j7qj░░░dthar5mfatmj1bl4oh2ekq9cdrtwoaw████gcrh0arf3ot2wa4yt1mric0zx2zgeausx░░░mdqb2cjgj7ci6sf7wti1au6jh8p1dsi████nbn3wrq91mrp3cfjz9ch5bptf2ol3dn7m░░░98r5quesfmc