AgentScout Logo Agent Scout

ArXiv cs.AI 周度论文追踪:智能体相关研究前沿动态汇总

ArXiv cs.AI 与 cs.CL 本周收录 167 篇智能体相关论文,精选 30 篇高影响力研究进行深度分析。计算机操作智能体评估成为主导研究方向,OpenComputer 构建 1,000 项可验证任务基准,Agent Meltdowns 揭示 64.7% 不安全行为率引发业界安全担忧。

AgentScout · · · 8 分钟阅读
#arxiv #ai-agents #research-papers #weekly-tracker #computer-use-agents #multi-agent-systems
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概述

  • 快照周期: 2026-05-15 至 2026-05-21
  • 追踪器: ArXiv cs.AI 周度论文追踪(查看所有历史快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率: 每周
  • 主要来源: ArXiv cs.AI RSS, ArXiv cs.CL RSS

核心数据

  • 研究规模: 本周 ArXiv cs.AI(399 篇)与 cs.CL(99 篇)共收录 167 篇智能体相关论文
  • 精选内容: 30 篇高影响力论文入选,趋势评分 6-10 分;计算机操作智能体评估占据主导地位
  • 时间范围: 2026 年 5 月 15-21 日
  • 影响分析: 由于 cs.AI 与 cs.CL 联合覆盖,智能体相关论文数量增长 377%;多智能体论文达 28 篇(周环比增长 55.6%)

评测方法

论文每周从 ArXiv RSS 订阅源采集(cs.AI 和 cs.CL 分类)。通过标题和摘要的关键词匹配识别智能体相关论文。趋势评分(1-10)基于引用速度、HuggingFace 论文互动量以及与核心智能体研究主题的相关性进行分配。本快照反映 2026 年 5 月 15-21 日周内提交或更新的论文。

本周数据

标题ArXiv ID趋势评分关键主题核心发现
OpenComputer: Verifiable Software Worlds for Computer-Use Agents2605.1976910计算机操作智能体、验证、桌面自动化、33 个应用、1,000 项任务前沿模型在端到端完成方面存在显著困难,尽管在部分步骤上取得进展
Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents2605.1914910智能体安全、崩溃分类法、错误处理、64.7% 不安全行为当智能体遭遇模拟错误时,64.7% 的运行轨迹表现出不安全行为
SIGMA: Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling2605.194189多智能体、符号图、冲突感知推理、6 个基准测试在 6 个基准数据集上持续优于现有最佳基线
Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On2605.190359A2A 网络、可信性、智能体协调、四大设计支柱A2A 网络信任架构的愿景论文
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows2605.190999委托基准测试、11 个模型、路由保真度、反事实上限委托编排存在 15-31 个百分点的未实现优化空间
POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents2605.191279隐私基准测试、对抗性探测、7,852 个样本、10 个领域前沿模型保护 >99% 的敏感属性;较小模型泄露超过一半
Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents2605.196049形式化技能、运行时原生、MCP、钩子管控、FairyClaw高效且可强制执行的智能体技能控制层
PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents2605.199329上下文地图、长上下文智能体、定位缓存、减少 93-145 次迭代以比 ACE 低 1.7-5.8 倍的成本实现 6.3-34.0% 的性能提升
Evidence-Carrying Multimodal Agents: Hallucination as Exploit2605.191928多模态智能体、幻觉到行动、证据携带、DOM/OCR 验证器经过 4 轮加固后,门控绕过率从 15% 降至 1.3%
EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design2605.197438多智能体、工程设计、LangGraph、HPC 编排、7 个智能体专有模型在 Beams2D 任务上实现 96-97% 的完成率
SERL: Selective Environment-Reweighted Learning for Multi-Turn Agents2605.194478多轮智能体、反馈重加权、信用分配、ALFWorld、WebShopALFWorld 成功率 90.0%,WebShop 成功率 80.1%
AgentNLQ: A General-Purpose Agent for Natural Language to SQL2605.190108NL2SQL、多智能体、BIRD 基准测试、78.1% 语义准确率BIRD 基准测试语义准确率达 78.1%
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization2605.193308技能优化、帕累托前沿、切比雪夫标量化、7.5% 提升相比最强基线相对提升 7.5%,FEVER 上提升 14.9%
Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints2605.191408工作流学习、交接、IC-SMDP、去中心化 Q 学习、有限样本保证首次在去中心化部分可观测条件下为神经 Q 学习提供有限样本保证
MMoA: An AI-Agent Framework with Recurrence for Memoried Mixture-of-Agent2605.191948混合智能体、LSTM 门控、循环路由、AlpacaEval 58.0%在运行时效率提升 4.6% 的同时保持相当准确率
Progressive Autonomy as Preference Learning: Trust Calibration for Agentic Tool Use2605.191518信任校准、工具使用、偏好学习、高斯过程、批准/拒绝基于偏好的贝叶斯优化用于允许/阻止/询问区域分类
AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees2605.192607GUI 智能体、Token 削减、四叉树、13.22% 加速、减少 29.52% Token减少 29.52% 视觉 Token 实现 13.22% 加速,保留 99.06% 性能
SimGym: A Framework for A/B Test Simulation with VLM Agents2605.192197A/B 测试、VLM 智能体、电子商务、人格生成、77% 方向一致性与真实买家行为方向一致性达 77%,时间从数周缩短至 1 小时以内
Agentic Trading: When LLM Agents Meet Financial Markets2605.193377LLM 交易智能体、综述、77 项研究、协议不可比性、可复现性审计仅 2/19 研究报告了可提取的时间一致分割协议
Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation2605.197797不确定性量化、保形预测、50 个智能体、18 个信号24 小时预测范围内校准误差低于 0.02,单智能体覆盖率达 80.4%
ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking2605.190777对话状态追踪、ReAct 循环、MultiWOZ、零样本 SOTA、52.71% JGA新零样本 SOTA:gpt-oss-20B 达到 52.71% 联合目标准确率
REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?2605.191967LLM 作为裁判、元评估、深度研究智能体、失败分类法最佳 LLM 裁判在推理/工具使用失败检测上的准确率低于 55%
Discoverable Agent Knowledge: A Formal Framework for Agentic KG Affordances2605.191867知识图谱、智能体可供性、VoID/DCAT 扩展、OWL-S 复兴智能体可供性配置文件(AAP)用于知识图谱选择与组合
Prior Knowledge or Search? LLM Agents in Hardware-Aware Code Optimization2605.197827LLM 优化、代码优化、CUDA vs TVM、贪婪优化LLM 依赖预训练先验而非提供的反馈
Multi-Agent Framework for Feature-Constrained Difficulty Control2605.193166多智能体、难度控制、阅读理解、题目生成用于可控难度生成的多智能体框架
Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory2605.199526智能体记忆、终身学习、原子事实、记忆结构超越原子事实的终身智能体记忆
Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents2605.200616信用分配、长程智能体、信念奖励、一致性引导基于信念的长程智能体信用分配
CopT: Contrastive On-Policy Thinking for General and Agentic Reasoning2605.200756智能体推理、对比思考、同策略、连续空间用于智能体推理的对比同策略思考
ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning2605.201766临床推理、多模态、证据搜索、智能体临床推理智能体的自动化证据搜索
Memory-Augmented Reinforcement Learning Agent for CAD Generation2605.197486记忆增强 RL、CAD 生成、设计智能体用于 CAD 生成的记忆增强强化学习

周度对比摘要

指标本周上周变化
论文总数(cs.AI + cs.CL)498122+376(+308.2%)
智能体相关论文16735+132(+377.1%)
多智能体系统2818+10(+55.6%)
智能体记忆论文9-N/A
计算机操作智能体4-N/A
智能体安全论文3-N/A
工具调用论文11-N/A

说明: 论文数量的显著增长源于覆盖范围从仅 cs.AI 扩展至 cs.AI + cs.CL 联合 RSS 订阅,提供了 AI 和 NLP 两个社区智能体研究的更全面视角。

生态指标

分类数量备注
扫描论文总数498399 篇 cs.AI + 99 篇 cs.CL
智能体相关论文167占总数 33.5%
多智能体系统28占智能体论文 16.8%
推理论文35占智能体论文 21.0%
工具调用论文11占智能体论文 6.6%
RAG 相关12占智能体论文 7.2%
智能体记忆9占智能体论文 5.4%
GUI 智能体5占智能体论文 3.0%
计算机操作智能体4占智能体论文 2.4%
智能体安全3占智能体论文 1.8%
智能体评估6占智能体论文 3.6%

分类领先论文

类别领先论文
计算机操作智能体OpenComputer, Agent Meltdowns, AQuaUI
多智能体系统SIGMA, EngiAI, MMoA, Learning to Hand Off
智能体记忆PEEK, SERL, Rethinking Memory
智能体安全Agent Meltdowns, POLAR-Bench, Evidence-Carrying Agents
智能体评估DecisionBench, REFLECT, Distribution-Free UQ
智能体技能Formal Skill, MOCHA, Discoverable Agent Knowledge

趋势与观察

  • 计算机操作智能体评估占据主导地位: OpenComputer 建立了首个全面的桌面基准测试,覆盖 33 个应用的 1,000 项可验证任务,揭示了前沿模型在端到端完成能力上存在显著差距。
  • 安全分类法兴起: Agent Meltdowns 引入了系统性的失败分类法,显示当智能体遭遇模拟错误时 64.7% 的行为不安全,凸显了有用性与无害性之间的关键鸿沟。
  • 多智能体推理走向成熟: SIGMA 展示了基于符号图的冲突感知推理在 6 个基准测试上持续优于现有最佳基线,标志着处理专业智能体间分歧的进步。
  • 记忆架构实现突破: PEEK 的上下文地图方法在长上下文任务上实现 6.3-34.0% 的性能提升,迭代次数减少 93-145 次;SERL 通过反馈重加权在 ALFWorld 上达到 90.0% 成功率。
  • 隐私鸿沟扩大: POLAR-Bench 揭示了明显分化——前沿模型保护 >99% 的敏感属性,而较小模型泄露超过 50%,表明安全对齐与模型规模强相关。
  • LLM 裁判仍不可靠: REFLECT 显示最佳 LLM 裁判在智能体评估上准确率低于 55%,凸显了自动化智能体监督的缺口。

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 62/100

本周三篇论文的汇聚——OpenComputer 的 1,000 项可验证任务、Agent Meltdowns 的 64.7% 不安全行为率、以及 POLAR-Bench 的隐私鸿沟发现——标志着从智能体能力构建向系统性失败模式编目的转变。研究社区正从”智能体能做什么?“转向”智能体在哪里崩溃?“这不仅是学术问题:在生产环境部署智能体的企业面临责任鸿沟,前沿模型的成本(推理模型超过 $60/1M tokens)与错误条件下 64.7% 的不安全行为率叠加。SIGMA 的冲突感知方法和 PEEK 的上下文地图解决了正交问题——智能体间分歧和长上下文记忆——但两者均未触及 OpenComputer 所暴露的核心安全-评估对齐问题。DecisionBench 中 15-31 个百分点的委托缺口和 REFLECT 中低于 55% 的 LLM 裁判准确率进一步表明,智能体监督的自动化仍未解决,尽管能力快速提升。

关键启示: 企业在选择智能体框架时应优先考虑安全评估基础设施而非能力扩展——错误条件下 64.7% 的崩溃率代表了当前基准测试系统性低估的不可接受的生产风险。

历史快照

信息来源

ArXiv cs.AI 周度论文追踪:智能体相关研究前沿动态汇总

ArXiv cs.AI 与 cs.CL 本周收录 167 篇智能体相关论文,精选 30 篇高影响力研究进行深度分析。计算机操作智能体评估成为主导研究方向,OpenComputer 构建 1,000 项可验证任务基准,Agent Meltdowns 揭示 64.7% 不安全行为率引发业界安全担忧。

AgentScout · · · 8 分钟阅读
#arxiv #ai-agents #research-papers #weekly-tracker #computer-use-agents #multi-agent-systems
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概述

  • 快照周期: 2026-05-15 至 2026-05-21
  • 追踪器: ArXiv cs.AI 周度论文追踪(查看所有历史快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率: 每周
  • 主要来源: ArXiv cs.AI RSS, ArXiv cs.CL RSS

核心数据

  • 研究规模: 本周 ArXiv cs.AI(399 篇)与 cs.CL(99 篇)共收录 167 篇智能体相关论文
  • 精选内容: 30 篇高影响力论文入选,趋势评分 6-10 分;计算机操作智能体评估占据主导地位
  • 时间范围: 2026 年 5 月 15-21 日
  • 影响分析: 由于 cs.AI 与 cs.CL 联合覆盖,智能体相关论文数量增长 377%;多智能体论文达 28 篇(周环比增长 55.6%)

评测方法

论文每周从 ArXiv RSS 订阅源采集(cs.AI 和 cs.CL 分类)。通过标题和摘要的关键词匹配识别智能体相关论文。趋势评分(1-10)基于引用速度、HuggingFace 论文互动量以及与核心智能体研究主题的相关性进行分配。本快照反映 2026 年 5 月 15-21 日周内提交或更新的论文。

本周数据

标题ArXiv ID趋势评分关键主题核心发现
OpenComputer: Verifiable Software Worlds for Computer-Use Agents2605.1976910计算机操作智能体、验证、桌面自动化、33 个应用、1,000 项任务前沿模型在端到端完成方面存在显著困难,尽管在部分步骤上取得进展
Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents2605.1914910智能体安全、崩溃分类法、错误处理、64.7% 不安全行为当智能体遭遇模拟错误时,64.7% 的运行轨迹表现出不安全行为
SIGMA: Conflict-Resilient Multi-Agent Reasoning via Signed Graph Modeling2605.194189多智能体、符号图、冲突感知推理、6 个基准测试在 6 个基准数据集上持续优于现有最佳基线
Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On2605.190359A2A 网络、可信性、智能体协调、四大设计支柱A2A 网络信任架构的愿景论文
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows2605.190999委托基准测试、11 个模型、路由保真度、反事实上限委托编排存在 15-31 个百分点的未实现优化空间
POLAR-Bench: A Diagnostic Benchmark for Privacy-Utility Trade-offs in LLM Agents2605.191279隐私基准测试、对抗性探测、7,852 个样本、10 个领域前沿模型保护 >99% 的敏感属性;较小模型泄露超过一半
Formal Skill: Programmable Runtime Skills for Efficient and Accurate LLM Agents2605.196049形式化技能、运行时原生、MCP、钩子管控、FairyClaw高效且可强制执行的智能体技能控制层
PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents2605.199329上下文地图、长上下文智能体、定位缓存、减少 93-145 次迭代以比 ACE 低 1.7-5.8 倍的成本实现 6.3-34.0% 的性能提升
Evidence-Carrying Multimodal Agents: Hallucination as Exploit2605.191928多模态智能体、幻觉到行动、证据携带、DOM/OCR 验证器经过 4 轮加固后,门控绕过率从 15% 降至 1.3%
EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design2605.197438多智能体、工程设计、LangGraph、HPC 编排、7 个智能体专有模型在 Beams2D 任务上实现 96-97% 的完成率
SERL: Selective Environment-Reweighted Learning for Multi-Turn Agents2605.194478多轮智能体、反馈重加权、信用分配、ALFWorld、WebShopALFWorld 成功率 90.0%,WebShop 成功率 80.1%
AgentNLQ: A General-Purpose Agent for Natural Language to SQL2605.190108NL2SQL、多智能体、BIRD 基准测试、78.1% 语义准确率BIRD 基准测试语义准确率达 78.1%
MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization2605.193308技能优化、帕累托前沿、切比雪夫标量化、7.5% 提升相比最强基线相对提升 7.5%,FEVER 上提升 14.9%
Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints2605.191408工作流学习、交接、IC-SMDP、去中心化 Q 学习、有限样本保证首次在去中心化部分可观测条件下为神经 Q 学习提供有限样本保证
MMoA: An AI-Agent Framework with Recurrence for Memoried Mixture-of-Agent2605.191948混合智能体、LSTM 门控、循环路由、AlpacaEval 58.0%在运行时效率提升 4.6% 的同时保持相当准确率
Progressive Autonomy as Preference Learning: Trust Calibration for Agentic Tool Use2605.191518信任校准、工具使用、偏好学习、高斯过程、批准/拒绝基于偏好的贝叶斯优化用于允许/阻止/询问区域分类
AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees2605.192607GUI 智能体、Token 削减、四叉树、13.22% 加速、减少 29.52% Token减少 29.52% 视觉 Token 实现 13.22% 加速,保留 99.06% 性能
SimGym: A Framework for A/B Test Simulation with VLM Agents2605.192197A/B 测试、VLM 智能体、电子商务、人格生成、77% 方向一致性与真实买家行为方向一致性达 77%,时间从数周缩短至 1 小时以内
Agentic Trading: When LLM Agents Meet Financial Markets2605.193377LLM 交易智能体、综述、77 项研究、协议不可比性、可复现性审计仅 2/19 研究报告了可提取的时间一致分割协议
Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation2605.197797不确定性量化、保形预测、50 个智能体、18 个信号24 小时预测范围内校准误差低于 0.02,单智能体覆盖率达 80.4%
ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking2605.190777对话状态追踪、ReAct 循环、MultiWOZ、零样本 SOTA、52.71% JGA新零样本 SOTA:gpt-oss-20B 达到 52.71% 联合目标准确率
REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?2605.191967LLM 作为裁判、元评估、深度研究智能体、失败分类法最佳 LLM 裁判在推理/工具使用失败检测上的准确率低于 55%
Discoverable Agent Knowledge: A Formal Framework for Agentic KG Affordances2605.191867知识图谱、智能体可供性、VoID/DCAT 扩展、OWL-S 复兴智能体可供性配置文件(AAP)用于知识图谱选择与组合
Prior Knowledge or Search? LLM Agents in Hardware-Aware Code Optimization2605.197827LLM 优化、代码优化、CUDA vs TVM、贪婪优化LLM 依赖预训练先验而非提供的反馈
Multi-Agent Framework for Feature-Constrained Difficulty Control2605.193166多智能体、难度控制、阅读理解、题目生成用于可控难度生成的多智能体框架
Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory2605.199526智能体记忆、终身学习、原子事实、记忆结构超越原子事实的终身智能体记忆
Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents2605.200616信用分配、长程智能体、信念奖励、一致性引导基于信念的长程智能体信用分配
CopT: Contrastive On-Policy Thinking for General and Agentic Reasoning2605.200756智能体推理、对比思考、同策略、连续空间用于智能体推理的对比同策略思考
ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning2605.201766临床推理、多模态、证据搜索、智能体临床推理智能体的自动化证据搜索
Memory-Augmented Reinforcement Learning Agent for CAD Generation2605.197486记忆增强 RL、CAD 生成、设计智能体用于 CAD 生成的记忆增强强化学习

周度对比摘要

指标本周上周变化
论文总数(cs.AI + cs.CL)498122+376(+308.2%)
智能体相关论文16735+132(+377.1%)
多智能体系统2818+10(+55.6%)
智能体记忆论文9-N/A
计算机操作智能体4-N/A
智能体安全论文3-N/A
工具调用论文11-N/A

说明: 论文数量的显著增长源于覆盖范围从仅 cs.AI 扩展至 cs.AI + cs.CL 联合 RSS 订阅,提供了 AI 和 NLP 两个社区智能体研究的更全面视角。

生态指标

分类数量备注
扫描论文总数498399 篇 cs.AI + 99 篇 cs.CL
智能体相关论文167占总数 33.5%
多智能体系统28占智能体论文 16.8%
推理论文35占智能体论文 21.0%
工具调用论文11占智能体论文 6.6%
RAG 相关12占智能体论文 7.2%
智能体记忆9占智能体论文 5.4%
GUI 智能体5占智能体论文 3.0%
计算机操作智能体4占智能体论文 2.4%
智能体安全3占智能体论文 1.8%
智能体评估6占智能体论文 3.6%

分类领先论文

类别领先论文
计算机操作智能体OpenComputer, Agent Meltdowns, AQuaUI
多智能体系统SIGMA, EngiAI, MMoA, Learning to Hand Off
智能体记忆PEEK, SERL, Rethinking Memory
智能体安全Agent Meltdowns, POLAR-Bench, Evidence-Carrying Agents
智能体评估DecisionBench, REFLECT, Distribution-Free UQ
智能体技能Formal Skill, MOCHA, Discoverable Agent Knowledge

趋势与观察

  • 计算机操作智能体评估占据主导地位: OpenComputer 建立了首个全面的桌面基准测试,覆盖 33 个应用的 1,000 项可验证任务,揭示了前沿模型在端到端完成能力上存在显著差距。
  • 安全分类法兴起: Agent Meltdowns 引入了系统性的失败分类法,显示当智能体遭遇模拟错误时 64.7% 的行为不安全,凸显了有用性与无害性之间的关键鸿沟。
  • 多智能体推理走向成熟: SIGMA 展示了基于符号图的冲突感知推理在 6 个基准测试上持续优于现有最佳基线,标志着处理专业智能体间分歧的进步。
  • 记忆架构实现突破: PEEK 的上下文地图方法在长上下文任务上实现 6.3-34.0% 的性能提升,迭代次数减少 93-145 次;SERL 通过反馈重加权在 ALFWorld 上达到 90.0% 成功率。
  • 隐私鸿沟扩大: POLAR-Bench 揭示了明显分化——前沿模型保护 >99% 的敏感属性,而较小模型泄露超过 50%,表明安全对齐与模型规模强相关。
  • LLM 裁判仍不可靠: REFLECT 显示最佳 LLM 裁判在智能体评估上准确率低于 55%,凸显了自动化智能体监督的缺口。

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 62/100

本周三篇论文的汇聚——OpenComputer 的 1,000 项可验证任务、Agent Meltdowns 的 64.7% 不安全行为率、以及 POLAR-Bench 的隐私鸿沟发现——标志着从智能体能力构建向系统性失败模式编目的转变。研究社区正从”智能体能做什么?“转向”智能体在哪里崩溃?“这不仅是学术问题:在生产环境部署智能体的企业面临责任鸿沟,前沿模型的成本(推理模型超过 $60/1M tokens)与错误条件下 64.7% 的不安全行为率叠加。SIGMA 的冲突感知方法和 PEEK 的上下文地图解决了正交问题——智能体间分歧和长上下文记忆——但两者均未触及 OpenComputer 所暴露的核心安全-评估对齐问题。DecisionBench 中 15-31 个百分点的委托缺口和 REFLECT 中低于 55% 的 LLM 裁判准确率进一步表明,智能体监督的自动化仍未解决,尽管能力快速提升。

关键启示: 企业在选择智能体框架时应优先考虑安全评估基础设施而非能力扩展——错误条件下 64.7% 的崩溃率代表了当前基准测试系统性低估的不可接受的生产风险。

历史快照

信息来源

5bmvax4o7jmvlz636fzklg░░░mrpadwngn8lw9p8hpik1hpolv2oa5rkr░░░333ybkv0p8md6umli0vgbnfp8218ucnw░░░b5zbmdu7exfh8157a2vpmla3bk76t5yd████va4evsol95izypm8es943vqt9mrs12g████9fl68g6fob63tk3xpp7h2xgp21ltkc░░░kfzhkbub9qiulkzmeitpu97f6uttxxjf░░░ee0hu8ll2eh0qv9psh5zum96ilyg6sa9████y4ue7zoybsut036wec0nedy7ocve3pnu░░░adkqcdvjdvvjuygl0f5nzqkse87vdacaa░░░1tzftbo0gqyvl858rsmockfwxekv41v░░░ex61wv4n2ftxk5bd4pw2g96zkjvb7lfxj░░░6c7shkds9wcmfo5yl6tbllnk3ki979ydm░░░0o56sk343a1tsrwhwevglianmpab3pc7l░░░r0nhc9sbxbn0caezappsp7r523dfti6v████4w3jrj9u71lxh9kduk9dcpbprrwv5n8c░░░ics0mzpib7igo2ewr32n0pwlqzpvnztzg░░░6nwps8nhfoei8hxlnhpzobgtfhy0ffi25░░░c3oiy18ozx6l1d1zdkptglcirm7x19o1q████upnqeuzie3hscoypbyejfhdhgrvmywfqw████bblbzdnp3pktyhsypuhw8afrm2acvse5k████scrnj09o9e4b16hgihqlgv6ht6v3xhy░░░4dut8s4bp2oz2sidyq3e3pjvjs80nfko░░░xnjllxb4xe84dl7iy6f39y2j51srt9y4p░░░wdlm4l1soot9jjmdaj6n27eqxnfxkhxgv░░░9k1ibz7bzm97rxsokgvd5peemcp43dpog████7vw5jyurnx29xgy2w5x3l4x4wrmkxr7a7░░░xritf39516gt299f6m19cj27r2ewsgri6████6a7ozbkgogatvf9fr2vs27opemoc64qk████mm7jmtre1x9xwun2tpnh593iprb4nfxt████h9qfy9g3hr8jeo0jv5775othwa8aq6a4████8734xs7u2umxp6tlq3rzccgpi85zm63████93rrzaevg2a7ghverpctwa2ecl9gfm7i████anuknx81wrch4aotue1cbpuz0h166z8j████5in68c6y28wo7nicmz984pvurcqf4171░░░bnmhhm16oa5alcnnuu2uauqz9o26vi3j████fo76z4hkudianxva2q61lgm4hm7vq8zq░░░mhw87scf11n2f8692vpofjebm02f0vsv7████5us890jskygbub71z5jxaqkxvdqkl12f████2f396qau6fw0cprdri79bxkg1ntv01mze████gv7ibwxnb4g5nbw4mkkfekzuv00igtor░░░s5l7n8994aa8ir5hqgmuracqgka35whrt████96d622w41c564u2jgs3ddhgdph0l1p9dq████l8jp7srxcl5hu9lsr1qhjjesubanla░░░xjaofg2vl9ckbpawmvr2l0sq7j5kx2qok░░░xck58hx86loyqmk4v0vrufc6mfp9hzii████g8jek43qmvgrvzazg91rw7av2jfhdrsx░░░q9gyf5bc4apbq6kftpt9p6e2v1t0mar7v████1bmzfwahj39tuoz50glx3ejsxlr7i8w4████b0z3o3bxg7hjuipg7gkujkc54who3ydvf░░░n7pob7ap3x