ArXiv cs.AI 周度论文追踪:智能体相关研究前沿动态汇总
ArXiv cs.AI 与 cs.CL 本周收录 167 篇智能体相关论文,精选 30 篇高影响力研究进行深度分析。计算机操作智能体评估成为主导研究方向,OpenComputer 构建 1,000 项可验证任务基准,Agent Meltdowns 揭示 64.7% 不安全行为率引发业界安全担忧。
数据概述
- 快照周期: 2026-05-15 至 2026-05-21
- 追踪器: ArXiv cs.AI 周度论文追踪(查看所有历史快照:
/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly) - 更新频率: 每周
- 主要来源: ArXiv cs.AI RSS, ArXiv cs.CL RSS
核心数据
- 研究规模: 本周 ArXiv cs.AI(399 篇)与 cs.CL(99 篇)共收录 167 篇智能体相关论文
- 精选内容: 30 篇高影响力论文入选,趋势评分 6-10 分;计算机操作智能体评估占据主导地位
- 时间范围: 2026 年 5 月 15-21 日
- 影响分析: 由于 cs.AI 与 cs.CL 联合覆盖,智能体相关论文数量增长 377%;多智能体论文达 28 篇(周环比增长 55.6%)
评测方法
论文每周从 ArXiv RSS 订阅源采集(cs.AI 和 cs.CL 分类)。通过标题和摘要的关键词匹配识别智能体相关论文。趋势评分(1-10)基于引用速度、HuggingFace 论文互动量以及与核心智能体研究主题的相关性进行分配。本快照反映 2026 年 5 月 15-21 日周内提交或更新的论文。
本周数据
| 标题 | ArXiv ID | 趋势评分 | 关键主题 | 核心发现 |
|---|---|---|---|---|
| OpenComputer: Verifiable Software Worlds for Computer-Use Agents | 2605.19769 | 10 | 计算机操作智能体、验证、桌面自动化、33 个应用、1,000 项任务 | 前沿模型在端到端完成方面存在显著困难,尽管在部分步骤上取得进展 |
| Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents | 2605.19149 | 10 | 智能体安全、崩溃分类法、错误处理、64.7% 不安全行为 | 当智能体遭遇模拟错误时,64.7% 的运行轨迹表现出不安全行为 |
| SIGMA: Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling | 2605.19418 | 9 | 多智能体、符号图、冲突感知推理、6 个基准测试 | 在 6 个基准数据集上持续优于现有最佳基线 |
| Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On | 2605.19035 | 9 | A2A 网络、可信性、智能体协调、四大设计支柱 | A2A 网络信任架构的愿景论文 |
| DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows | 2605.19099 | 9 | 委托基准测试、11 个模型、路由保真度、反事实上限 | 委托编排存在 15-31 个百分点的未实现优化空间 |
| POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents | 2605.19127 | 9 | 隐私基准测试、对抗性探测、7,852 个样本、10 个领域 | 前沿模型保护 >99% 的敏感属性;较小模型泄露超过一半 |
| Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents | 2605.19604 | 9 | 形式化技能、运行时原生、MCP、钩子管控、FairyClaw | 高效且可强制执行的智能体技能控制层 |
| PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents | 2605.19932 | 9 | 上下文地图、长上下文智能体、定位缓存、减少 93-145 次迭代 | 以比 ACE 低 1.7-5.8 倍的成本实现 6.3-34.0% 的性能提升 |
| Evidence-Carrying Multimodal Agents: Hallucination as Exploit | 2605.19192 | 8 | 多模态智能体、幻觉到行动、证据携带、DOM/OCR 验证器 | 经过 4 轮加固后,门控绕过率从 15% 降至 1.3% |
| EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design | 2605.19743 | 8 | 多智能体、工程设计、LangGraph、HPC 编排、7 个智能体 | 专有模型在 Beams2D 任务上实现 96-97% 的完成率 |
| SERL: Selective Environment-Reweighted Learning for Multi-Turn Agents | 2605.19447 | 8 | 多轮智能体、反馈重加权、信用分配、ALFWorld、WebShop | ALFWorld 成功率 90.0%,WebShop 成功率 80.1% |
| AgentNLQ: A General-Purpose Agent for Natural Language to SQL | 2605.19010 | 8 | NL2SQL、多智能体、BIRD 基准测试、78.1% 语义准确率 | BIRD 基准测试语义准确率达 78.1% |
| MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization | 2605.19330 | 8 | 技能优化、帕累托前沿、切比雪夫标量化、7.5% 提升 | 相比最强基线相对提升 7.5%,FEVER 上提升 14.9% |
| Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints | 2605.19140 | 8 | 工作流学习、交接、IC-SMDP、去中心化 Q 学习、有限样本保证 | 首次在去中心化部分可观测条件下为神经 Q 学习提供有限样本保证 |
| MMoA: An AI-Agent Framework with Recurrence for Memoried Mixture-of-Agent | 2605.19194 | 8 | 混合智能体、LSTM 门控、循环路由、AlpacaEval 58.0% | 在运行时效率提升 4.6% 的同时保持相当准确率 |
| Progressive Autonomy as Preference Learning: Trust Calibration for Agentic Tool Use | 2605.19151 | 8 | 信任校准、工具使用、偏好学习、高斯过程、批准/拒绝 | 基于偏好的贝叶斯优化用于允许/阻止/询问区域分类 |
| AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees | 2605.19260 | 7 | GUI 智能体、Token 削减、四叉树、13.22% 加速、减少 29.52% Token | 减少 29.52% 视觉 Token 实现 13.22% 加速,保留 99.06% 性能 |
| SimGym: A Framework for A/B Test Simulation with VLM Agents | 2605.19219 | 7 | A/B 测试、VLM 智能体、电子商务、人格生成、77% 方向一致性 | 与真实买家行为方向一致性达 77%,时间从数周缩短至 1 小时以内 |
| Agentic Trading: When LLM Agents Meet Financial Markets | 2605.19337 | 7 | LLM 交易智能体、综述、77 项研究、协议不可比性、可复现性审计 | 仅 2/19 研究报告了可提取的时间一致分割协议 |
| Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation | 2605.19779 | 7 | 不确定性量化、保形预测、50 个智能体、18 个信号 | 24 小时预测范围内校准误差低于 0.02,单智能体覆盖率达 80.4% |
| ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking | 2605.19077 | 7 | 对话状态追踪、ReAct 循环、MultiWOZ、零样本 SOTA、52.71% JGA | 新零样本 SOTA:gpt-oss-20B 达到 52.71% 联合目标准确率 |
| REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? | 2605.19196 | 7 | LLM 作为裁判、元评估、深度研究智能体、失败分类法 | 最佳 LLM 裁判在推理/工具使用失败检测上的准确率低于 55% |
| Discoverable Agent Knowledge: A Formal Framework for Agentic KG Affordances | 2605.19186 | 7 | 知识图谱、智能体可供性、VoID/DCAT 扩展、OWL-S 复兴 | 智能体可供性配置文件(AAP)用于知识图谱选择与组合 |
| Prior Knowledge or Search? LLM Agents in Hardware-Aware Code Optimization | 2605.19782 | 7 | LLM 优化、代码优化、CUDA vs TVM、贪婪优化 | LLM 依赖预训练先验而非提供的反馈 |
| Multi-Agent Framework for Feature-Constrained Difficulty Control | 2605.19316 | 6 | 多智能体、难度控制、阅读理解、题目生成 | 用于可控难度生成的多智能体框架 |
| Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory | 2605.19952 | 6 | 智能体记忆、终身学习、原子事实、记忆结构 | 超越原子事实的终身智能体记忆 |
| Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents | 2605.20061 | 6 | 信用分配、长程智能体、信念奖励、一致性引导 | 基于信念的长程智能体信用分配 |
| CopT: Contrastive On-Policy Thinking for General and Agentic Reasoning | 2605.20075 | 6 | 智能体推理、对比思考、同策略、连续空间 | 用于智能体推理的对比同策略思考 |
| ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning | 2605.20176 | 6 | 临床推理、多模态、证据搜索、智能体 | 临床推理智能体的自动化证据搜索 |
| Memory-Augmented Reinforcement Learning Agent for CAD Generation | 2605.19748 | 6 | 记忆增强 RL、CAD 生成、设计智能体 | 用于 CAD 生成的记忆增强强化学习 |
周度对比摘要
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 论文总数(cs.AI + cs.CL) | 498 | 122 | +376(+308.2%) |
| 智能体相关论文 | 167 | 35 | +132(+377.1%) |
| 多智能体系统 | 28 | 18 | +10(+55.6%) |
| 智能体记忆论文 | 9 | - | N/A |
| 计算机操作智能体 | 4 | - | N/A |
| 智能体安全论文 | 3 | - | N/A |
| 工具调用论文 | 11 | - | N/A |
说明: 论文数量的显著增长源于覆盖范围从仅 cs.AI 扩展至 cs.AI + cs.CL 联合 RSS 订阅,提供了 AI 和 NLP 两个社区智能体研究的更全面视角。
生态指标
| 分类 | 数量 | 备注 |
|---|---|---|
| 扫描论文总数 | 498 | 399 篇 cs.AI + 99 篇 cs.CL |
| 智能体相关论文 | 167 | 占总数 33.5% |
| 多智能体系统 | 28 | 占智能体论文 16.8% |
| 推理论文 | 35 | 占智能体论文 21.0% |
| 工具调用论文 | 11 | 占智能体论文 6.6% |
| RAG 相关 | 12 | 占智能体论文 7.2% |
| 智能体记忆 | 9 | 占智能体论文 5.4% |
| GUI 智能体 | 5 | 占智能体论文 3.0% |
| 计算机操作智能体 | 4 | 占智能体论文 2.4% |
| 智能体安全 | 3 | 占智能体论文 1.8% |
| 智能体评估 | 6 | 占智能体论文 3.6% |
分类领先论文
| 类别 | 领先论文 |
|---|---|
| 计算机操作智能体 | OpenComputer, Agent Meltdowns, AQuaUI |
| 多智能体系统 | SIGMA, EngiAI, MMoA, Learning to Hand Off |
| 智能体记忆 | PEEK, SERL, Rethinking Memory |
| 智能体安全 | Agent Meltdowns, POLAR-Bench, Evidence-Carrying Agents |
| 智能体评估 | DecisionBench, REFLECT, Distribution-Free UQ |
| 智能体技能 | Formal Skill, MOCHA, Discoverable Agent Knowledge |
趋势与观察
- 计算机操作智能体评估占据主导地位: OpenComputer 建立了首个全面的桌面基准测试,覆盖 33 个应用的 1,000 项可验证任务,揭示了前沿模型在端到端完成能力上存在显著差距。
- 安全分类法兴起: Agent Meltdowns 引入了系统性的失败分类法,显示当智能体遭遇模拟错误时 64.7% 的行为不安全,凸显了有用性与无害性之间的关键鸿沟。
- 多智能体推理走向成熟: SIGMA 展示了基于符号图的冲突感知推理在 6 个基准测试上持续优于现有最佳基线,标志着处理专业智能体间分歧的进步。
- 记忆架构实现突破: PEEK 的上下文地图方法在长上下文任务上实现 6.3-34.0% 的性能提升,迭代次数减少 93-145 次;SERL 通过反馈重加权在 ALFWorld 上达到 90.0% 成功率。
- 隐私鸿沟扩大: POLAR-Bench 揭示了明显分化——前沿模型保护 >99% 的敏感属性,而较小模型泄露超过 50%,表明安全对齐与模型规模强相关。
- LLM 裁判仍不可靠: REFLECT 显示最佳 LLM 裁判在智能体评估上准确率低于 55%,凸显了自动化智能体监督的缺口。
🔺 独家情报:别处看不到的洞察
置信度: 高 | 新颖度评分: 62/100
本周三篇论文的汇聚——OpenComputer 的 1,000 项可验证任务、Agent Meltdowns 的 64.7% 不安全行为率、以及 POLAR-Bench 的隐私鸿沟发现——标志着从智能体能力构建向系统性失败模式编目的转变。研究社区正从”智能体能做什么?“转向”智能体在哪里崩溃?“这不仅是学术问题:在生产环境部署智能体的企业面临责任鸿沟,前沿模型的成本(推理模型超过 $60/1M tokens)与错误条件下 64.7% 的不安全行为率叠加。SIGMA 的冲突感知方法和 PEEK 的上下文地图解决了正交问题——智能体间分歧和长上下文记忆——但两者均未触及 OpenComputer 所暴露的核心安全-评估对齐问题。DecisionBench 中 15-31 个百分点的委托缺口和 REFLECT 中低于 55% 的 LLM 裁判准确率进一步表明,智能体监督的自动化仍未解决,尽管能力快速提升。
关键启示: 企业在选择智能体框架时应优先考虑安全评估基础设施而非能力扩展——错误条件下 64.7% 的崩溃率代表了当前基准测试系统性低估的不可接受的生产风险。
历史快照
信息来源
- ArXiv cs.AI RSS Feed - AI 智能体研究论文主要来源
- ArXiv cs.CL RSS Feed - NLP 与计算语言学补充论文
ArXiv cs.AI 周度论文追踪:智能体相关研究前沿动态汇总
ArXiv cs.AI 与 cs.CL 本周收录 167 篇智能体相关论文,精选 30 篇高影响力研究进行深度分析。计算机操作智能体评估成为主导研究方向,OpenComputer 构建 1,000 项可验证任务基准,Agent Meltdowns 揭示 64.7% 不安全行为率引发业界安全担忧。
数据概述
- 快照周期: 2026-05-15 至 2026-05-21
- 追踪器: ArXiv cs.AI 周度论文追踪(查看所有历史快照:
/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly) - 更新频率: 每周
- 主要来源: ArXiv cs.AI RSS, ArXiv cs.CL RSS
核心数据
- 研究规模: 本周 ArXiv cs.AI(399 篇)与 cs.CL(99 篇)共收录 167 篇智能体相关论文
- 精选内容: 30 篇高影响力论文入选,趋势评分 6-10 分;计算机操作智能体评估占据主导地位
- 时间范围: 2026 年 5 月 15-21 日
- 影响分析: 由于 cs.AI 与 cs.CL 联合覆盖,智能体相关论文数量增长 377%;多智能体论文达 28 篇(周环比增长 55.6%)
评测方法
论文每周从 ArXiv RSS 订阅源采集(cs.AI 和 cs.CL 分类)。通过标题和摘要的关键词匹配识别智能体相关论文。趋势评分(1-10)基于引用速度、HuggingFace 论文互动量以及与核心智能体研究主题的相关性进行分配。本快照反映 2026 年 5 月 15-21 日周内提交或更新的论文。
本周数据
| 标题 | ArXiv ID | 趋势评分 | 关键主题 | 核心发现 |
|---|---|---|---|---|
| OpenComputer: Verifiable Software Worlds for Computer-Use Agents | 2605.19769 | 10 | 计算机操作智能体、验证、桌面自动化、33 个应用、1,000 项任务 | 前沿模型在端到端完成方面存在显著困难,尽管在部分步骤上取得进展 |
| Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents | 2605.19149 | 10 | 智能体安全、崩溃分类法、错误处理、64.7% 不安全行为 | 当智能体遭遇模拟错误时,64.7% 的运行轨迹表现出不安全行为 |
| SIGMA: Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling | 2605.19418 | 9 | 多智能体、符号图、冲突感知推理、6 个基准测试 | 在 6 个基准数据集上持续优于现有最佳基线 |
| Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On | 2605.19035 | 9 | A2A 网络、可信性、智能体协调、四大设计支柱 | A2A 网络信任架构的愿景论文 |
| DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows | 2605.19099 | 9 | 委托基准测试、11 个模型、路由保真度、反事实上限 | 委托编排存在 15-31 个百分点的未实现优化空间 |
| POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents | 2605.19127 | 9 | 隐私基准测试、对抗性探测、7,852 个样本、10 个领域 | 前沿模型保护 >99% 的敏感属性;较小模型泄露超过一半 |
| Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents | 2605.19604 | 9 | 形式化技能、运行时原生、MCP、钩子管控、FairyClaw | 高效且可强制执行的智能体技能控制层 |
| PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents | 2605.19932 | 9 | 上下文地图、长上下文智能体、定位缓存、减少 93-145 次迭代 | 以比 ACE 低 1.7-5.8 倍的成本实现 6.3-34.0% 的性能提升 |
| Evidence-Carrying Multimodal Agents: Hallucination as Exploit | 2605.19192 | 8 | 多模态智能体、幻觉到行动、证据携带、DOM/OCR 验证器 | 经过 4 轮加固后,门控绕过率从 15% 降至 1.3% |
| EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design | 2605.19743 | 8 | 多智能体、工程设计、LangGraph、HPC 编排、7 个智能体 | 专有模型在 Beams2D 任务上实现 96-97% 的完成率 |
| SERL: Selective Environment-Reweighted Learning for Multi-Turn Agents | 2605.19447 | 8 | 多轮智能体、反馈重加权、信用分配、ALFWorld、WebShop | ALFWorld 成功率 90.0%,WebShop 成功率 80.1% |
| AgentNLQ: A General-Purpose Agent for Natural Language to SQL | 2605.19010 | 8 | NL2SQL、多智能体、BIRD 基准测试、78.1% 语义准确率 | BIRD 基准测试语义准确率达 78.1% |
| MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization | 2605.19330 | 8 | 技能优化、帕累托前沿、切比雪夫标量化、7.5% 提升 | 相比最强基线相对提升 7.5%,FEVER 上提升 14.9% |
| Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints | 2605.19140 | 8 | 工作流学习、交接、IC-SMDP、去中心化 Q 学习、有限样本保证 | 首次在去中心化部分可观测条件下为神经 Q 学习提供有限样本保证 |
| MMoA: An AI-Agent Framework with Recurrence for Memoried Mixture-of-Agent | 2605.19194 | 8 | 混合智能体、LSTM 门控、循环路由、AlpacaEval 58.0% | 在运行时效率提升 4.6% 的同时保持相当准确率 |
| Progressive Autonomy as Preference Learning: Trust Calibration for Agentic Tool Use | 2605.19151 | 8 | 信任校准、工具使用、偏好学习、高斯过程、批准/拒绝 | 基于偏好的贝叶斯优化用于允许/阻止/询问区域分类 |
| AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees | 2605.19260 | 7 | GUI 智能体、Token 削减、四叉树、13.22% 加速、减少 29.52% Token | 减少 29.52% 视觉 Token 实现 13.22% 加速,保留 99.06% 性能 |
| SimGym: A Framework for A/B Test Simulation with VLM Agents | 2605.19219 | 7 | A/B 测试、VLM 智能体、电子商务、人格生成、77% 方向一致性 | 与真实买家行为方向一致性达 77%,时间从数周缩短至 1 小时以内 |
| Agentic Trading: When LLM Agents Meet Financial Markets | 2605.19337 | 7 | LLM 交易智能体、综述、77 项研究、协议不可比性、可复现性审计 | 仅 2/19 研究报告了可提取的时间一致分割协议 |
| Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation | 2605.19779 | 7 | 不确定性量化、保形预测、50 个智能体、18 个信号 | 24 小时预测范围内校准误差低于 0.02,单智能体覆盖率达 80.4% |
| ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking | 2605.19077 | 7 | 对话状态追踪、ReAct 循环、MultiWOZ、零样本 SOTA、52.71% JGA | 新零样本 SOTA:gpt-oss-20B 达到 52.71% 联合目标准确率 |
| REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? | 2605.19196 | 7 | LLM 作为裁判、元评估、深度研究智能体、失败分类法 | 最佳 LLM 裁判在推理/工具使用失败检测上的准确率低于 55% |
| Discoverable Agent Knowledge: A Formal Framework for Agentic KG Affordances | 2605.19186 | 7 | 知识图谱、智能体可供性、VoID/DCAT 扩展、OWL-S 复兴 | 智能体可供性配置文件(AAP)用于知识图谱选择与组合 |
| Prior Knowledge or Search? LLM Agents in Hardware-Aware Code Optimization | 2605.19782 | 7 | LLM 优化、代码优化、CUDA vs TVM、贪婪优化 | LLM 依赖预训练先验而非提供的反馈 |
| Multi-Agent Framework for Feature-Constrained Difficulty Control | 2605.19316 | 6 | 多智能体、难度控制、阅读理解、题目生成 | 用于可控难度生成的多智能体框架 |
| Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory | 2605.19952 | 6 | 智能体记忆、终身学习、原子事实、记忆结构 | 超越原子事实的终身智能体记忆 |
| Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents | 2605.20061 | 6 | 信用分配、长程智能体、信念奖励、一致性引导 | 基于信念的长程智能体信用分配 |
| CopT: Contrastive On-Policy Thinking for General and Agentic Reasoning | 2605.20075 | 6 | 智能体推理、对比思考、同策略、连续空间 | 用于智能体推理的对比同策略思考 |
| ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning | 2605.20176 | 6 | 临床推理、多模态、证据搜索、智能体 | 临床推理智能体的自动化证据搜索 |
| Memory-Augmented Reinforcement Learning Agent for CAD Generation | 2605.19748 | 6 | 记忆增强 RL、CAD 生成、设计智能体 | 用于 CAD 生成的记忆增强强化学习 |
周度对比摘要
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 论文总数(cs.AI + cs.CL) | 498 | 122 | +376(+308.2%) |
| 智能体相关论文 | 167 | 35 | +132(+377.1%) |
| 多智能体系统 | 28 | 18 | +10(+55.6%) |
| 智能体记忆论文 | 9 | - | N/A |
| 计算机操作智能体 | 4 | - | N/A |
| 智能体安全论文 | 3 | - | N/A |
| 工具调用论文 | 11 | - | N/A |
说明: 论文数量的显著增长源于覆盖范围从仅 cs.AI 扩展至 cs.AI + cs.CL 联合 RSS 订阅,提供了 AI 和 NLP 两个社区智能体研究的更全面视角。
生态指标
| 分类 | 数量 | 备注 |
|---|---|---|
| 扫描论文总数 | 498 | 399 篇 cs.AI + 99 篇 cs.CL |
| 智能体相关论文 | 167 | 占总数 33.5% |
| 多智能体系统 | 28 | 占智能体论文 16.8% |
| 推理论文 | 35 | 占智能体论文 21.0% |
| 工具调用论文 | 11 | 占智能体论文 6.6% |
| RAG 相关 | 12 | 占智能体论文 7.2% |
| 智能体记忆 | 9 | 占智能体论文 5.4% |
| GUI 智能体 | 5 | 占智能体论文 3.0% |
| 计算机操作智能体 | 4 | 占智能体论文 2.4% |
| 智能体安全 | 3 | 占智能体论文 1.8% |
| 智能体评估 | 6 | 占智能体论文 3.6% |
分类领先论文
| 类别 | 领先论文 |
|---|---|
| 计算机操作智能体 | OpenComputer, Agent Meltdowns, AQuaUI |
| 多智能体系统 | SIGMA, EngiAI, MMoA, Learning to Hand Off |
| 智能体记忆 | PEEK, SERL, Rethinking Memory |
| 智能体安全 | Agent Meltdowns, POLAR-Bench, Evidence-Carrying Agents |
| 智能体评估 | DecisionBench, REFLECT, Distribution-Free UQ |
| 智能体技能 | Formal Skill, MOCHA, Discoverable Agent Knowledge |
趋势与观察
- 计算机操作智能体评估占据主导地位: OpenComputer 建立了首个全面的桌面基准测试,覆盖 33 个应用的 1,000 项可验证任务,揭示了前沿模型在端到端完成能力上存在显著差距。
- 安全分类法兴起: Agent Meltdowns 引入了系统性的失败分类法,显示当智能体遭遇模拟错误时 64.7% 的行为不安全,凸显了有用性与无害性之间的关键鸿沟。
- 多智能体推理走向成熟: SIGMA 展示了基于符号图的冲突感知推理在 6 个基准测试上持续优于现有最佳基线,标志着处理专业智能体间分歧的进步。
- 记忆架构实现突破: PEEK 的上下文地图方法在长上下文任务上实现 6.3-34.0% 的性能提升,迭代次数减少 93-145 次;SERL 通过反馈重加权在 ALFWorld 上达到 90.0% 成功率。
- 隐私鸿沟扩大: POLAR-Bench 揭示了明显分化——前沿模型保护 >99% 的敏感属性,而较小模型泄露超过 50%,表明安全对齐与模型规模强相关。
- LLM 裁判仍不可靠: REFLECT 显示最佳 LLM 裁判在智能体评估上准确率低于 55%,凸显了自动化智能体监督的缺口。
🔺 独家情报:别处看不到的洞察
置信度: 高 | 新颖度评分: 62/100
本周三篇论文的汇聚——OpenComputer 的 1,000 项可验证任务、Agent Meltdowns 的 64.7% 不安全行为率、以及 POLAR-Bench 的隐私鸿沟发现——标志着从智能体能力构建向系统性失败模式编目的转变。研究社区正从”智能体能做什么?“转向”智能体在哪里崩溃?“这不仅是学术问题:在生产环境部署智能体的企业面临责任鸿沟,前沿模型的成本(推理模型超过 $60/1M tokens)与错误条件下 64.7% 的不安全行为率叠加。SIGMA 的冲突感知方法和 PEEK 的上下文地图解决了正交问题——智能体间分歧和长上下文记忆——但两者均未触及 OpenComputer 所暴露的核心安全-评估对齐问题。DecisionBench 中 15-31 个百分点的委托缺口和 REFLECT 中低于 55% 的 LLM 裁判准确率进一步表明,智能体监督的自动化仍未解决,尽管能力快速提升。
关键启示: 企业在选择智能体框架时应优先考虑安全评估基础设施而非能力扩展——错误条件下 64.7% 的崩溃率代表了当前基准测试系统性低估的不可接受的生产风险。
历史快照
信息来源
- ArXiv cs.AI RSS Feed - AI 智能体研究论文主要来源
- ArXiv cs.CL RSS Feed - NLP 与计算语言学补充论文
相关情报
ArXiv 智能体论文周报:自进化架构与分布式网络取得重大突破
本周追踪三十五篇人工智能领域论文,揭示自进化智能体、分布式网络架构和创意领域基准测试的三大突破性进展。研究显示,九十亿参数的进化模型直接挑战三千九百七十亿参数的前沿模型,游戏创作基准测试则暴露出前沿模型在创意任务中的显著短板。
大语言模型产品发布周度追踪报告 — 2026 年 6 月 16 日当周
Anthropic 发布 Fable 5 与 Mythos 5 后立即遭遇出口管制指令暂停访问,Google 宣布弃用 Imagen 4 和 Veo 模型,Anthropic 保密提交 S-1 文件预示即将启动 IPO 进程,本周共追踪到 11 条产品发布,其中 5 条高影响事件。
2026 年 AI 智能体市场变革:集成开发环境整合、资本集中与评估差距
2026 年 6 月三大结构性变革重塑市场:Windsurf 分拆表明 AI 集成开发环境寡头垄断形成,第一季度 67% 资本流向三家前沿实验室,CLEAR 框架填补 37% 实验室到生产差距,企业部署智能体需根本性调整策略,重新评估锁定风险与评估体系。