AgentScout Logo Agent Scout

ArXiv cs.AI 周度追踪:自改进智能体框架趋同,领域安全护栏涌现

本周 ArXiv cs.AI 论文追踪收录 18 篇智能体相关论文,自改进智能体框架 MUSE-Autoskill 与 SIA 独立提出技能生命周期架构并获得最高趋势评分,金融与情感支持领域涌现专用安全护栏方案,RLHF 被揭示存在偏好数据集结构性漏洞。

AgentScout · · · 8 分钟阅读
#arxiv #ai-papers #agents #weekly-tracker #self-improving-agents #safety-harness #rlhf #multimodal
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概览

  • 快照周次:2026-05-22 至 2026-05-28
  • 追踪器:ArXiv cs.AI 周度论文追踪(查看所有历史快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率:每周
  • 主要信源ArXiv cs.CL APIBrave Search

关键数据

  • :来自 ArXiv cs.CL(因 API 限流作为主类别)的 18 篇智能体相关论文
  • 什么:自改进智能体框架(MUSE-Autoskill、SIA)主导;领域专用安全护栏涌现(FinHarness、ENPMR-Bench);RLHF 漏洞被发现
  • 何时:2026 年 5 月 22 日至 28 日这一周
  • 影响:36% 的智能体相关率;3 篇多智能体论文;智能体论文平均趋势得分 5.2,整体平均 2.4

方法论

论文每周从 ArXiv API 查询采集,目标类别包括 cs.CL、cs.AI 及相关类别。智能体相关论文通过标题和摘要的关键词匹配识别(agent、multi-agent、autonomous、tool use、planning、reasoning)。趋势得分(1-10)根据与核心智能体研究主题的相关性、方法新颖度和潜在影响综合评定。

本快照反映了 2026 年 5 月 22 日至 28 日这一周提交或更新的论文。采集受限于 cs.AI 和 cs.MA 类别的 API 限流;Brave Search 提供了补充覆盖。

本周数据

热度排名靠前的论文

排名标题ArXiv ID趋势核心创新
1MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation2605.273668统一技能生命周期管理(创建、记忆、评估、优化)
2SIA: Self Improving AI with Harness & Weight Updates2605.272768结合护栏与权重更新的自主改进(LawBench 提升 56.6%)
3FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents2605.273337金融专用安全护栏(攻击成功率从 38.3% 降至 15.0%)
4QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents2605.270687多模态智能体审计(15.1% 空间幻觉,超 50% 无据指控)
5Alignment Tampering: How RLHF Is Exploited to Optimize Misaligned Biases2605.273556LLM 影响偏好数据集时 RLHF 的漏洞(ICML 2026)
6ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents2605.272405基于马斯洛理论的情感支持主动记忆检索

智能体相关论文完整列表(18 篇)

ArXiv ID标题类别趋势焦点
2605.27366MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluationcs.AI8自改进、技能生命周期
2605.27276SIA: Self Improving AI with Harness & Weight Updatescs.AI8自改进、元智能体
2605.27333FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agentscs.CL7安全护栏、金融
2605.27068QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agentscs.CL7多模态、审计、幻觉
2605.27355Alignment Tampering: How RLHF Is Exploited to Optimize Misaligned Biasescs.AI6RLHF、对齐、安全
2605.27240ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agentscs.CL5情感支持、记忆
2605.27294Separating Semantic Competition from Context Length in RAG Readingcs.CL3RAG、检索
2605.27220The Coverage Illusion: From Pre-retrieval Routing Failure to Post-retrieval Cascades in a Production RAG Systemcs.CL3RAG、生产环境
2605.27156LitSeg: Narrative-Aware Document Segmentation for Literary RAGcs.CL4RAG、分段
2605.27110BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoningcs.CR4越狱、智能体安全
2605.27030Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scalingcs.CL4推理、测试时扩展
2605.27190Learning When to Think While Listening in Large Audio-Language Modelscs.CL4音频语言、推理

周度对比

指标本周上周变化
采集论文总数50498-448(-89.9%)
智能体相关论文18167-149(-89.2%)
多智能体系统328-25(-89.3%)
平均趋势得分(智能体)5.2-N/A
最高趋势得分810-2

注意:本周采集受 ArXiv API 限流影响(cs.AI、cs.MA 类别被限制;cs.CL 成功)。论文总数减少 89.9% 反映的是部分覆盖,而非实际投稿量下降。预计下周将恢复完整覆盖。

生态指标

类别数量占比
扫描论文总数50100%
智能体相关论文1836.0%
多智能体系统36.0%
安全相关48.0%
RAG 相关48.0%
推理510.0%
多模态24.0%

类别分布

主类别数量占比
cs.CL3264.0%
cs.AI816.0%
cs.LG612.0%
cs.CV24.0%
cs.CR12.0%

主题聚类

聚类论文数关键词
自改进智能体3技能生命周期、权重更新、元智能体
安全护栏4金融、情感支持、越狱、RLHF
RAG 优化4检索、分段、覆盖、竞争
多模态审计2幻觉、社会推理
推理控制2测试时扩展、音频语言

趋势与观察

  • 自改进智能体架构趋同:MUSE-Autoskill 和 SIA 独立提出了几乎相同的架构——技能生命周期管理结合权重/护栏更新。这种趋同表明智能体自主性的范式正在形成。MUSE-Autoskill 提供了理论框架(创建、记忆、评估、优化),而 SIA 在 LawBench 上验证了 56.6% 的提升。

  • 领域专用安全护栏涌现:通用智能体安全框架正让位于专用解决方案。FinHarness 针对金融大语言模型智能体,采用三模块架构(查询监控、工具监控、级联),将攻击成功率从 38.3% 降至 15.0%,同时保持良性审批率。ENPMR-Bench 面向情感支持智能体,引入基于马斯洛理论的主动记忆检索。这种专业化趋势表明,通用安全方案不足以支撑生产环境部署。

  • RLHF 结构性漏洞被发现:《对齐篡改》(Alignment Tampering,ICML 2026 录用)揭示了 RLHF 偏好反馈循环中的根本缺陷——当大语言模型输出影响偏好数据集时,训练过程可能放大而非纠正偏差行为。这不是实现漏洞,而是 RLHF 范式本身的结构性缺陷。

  • 多模态幻觉持续存在:QUACK 揭示顶级视觉语言模型在空间声明上存在 15.1% 的幻觉,在社会推理场景中超过 50% 的指控缺乏依据。该框架引入了系统性审计方法,但结果凸显多模态接地仍待解决。

  • RAG 理解深化:三篇 RAG 论文从不同角度推进了检索理解:《覆盖假象》揭示了合成查询与真实查询分布之间的差距;LitSeg 为文学作品引入叙事感知分段;《语义竞争》分离了检索干扰与上下文长度效应。这些研究共同表明,生产级 RAG 系统存在系统性盲点。

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

本周 ArXiv 快照揭示了三个主流报道忽视的新兴趋势:

1. 自改进智能体架构趋同:MUSE-Autoskill 和 SIA 独立提出了相似的架构——技能生命周期结合权重/护栏更新——表明这可能成为智能体自主性的范式。跨研究团队(华为、独立研究者)的趋同指向理论吸引子而非巧合。

2. 领域专用安全护栏:FinHarness(金融)和 ENPMR-Bench(情感支持)证明通用智能体安全框架需要领域专用调优才能达到实用防护率。FinHarness 将攻击成功率从 38.3% 降至 15.0%,得益于理解交易语义的金融专用模块(查询监控、工具监控、级联)。通用安全基准系统性高估了垂直应用的防护能力。

3. RLHF 结构性漏洞:《对齐篡改》(ICML 2026)显示 RLHF 的偏好反馈循环可被利用——这是一个根本缺陷,可能需要重新思考训练后对齐。论文证明当大语言模型输出影响偏好数据集时,优化过程会放大而非纠正不良行为。这对所有依赖 RLHF 作为主要对齐机制的前沿模型提供商都有影响。

关键启示:在生产环境部署智能体的团队应评估领域专用安全护栏,而非依赖通用安全基准——FinHarness 23.3 个百分点的攻击成功率改善证明,安全度量当前与部署现实存在错位。

历史快照

信息来源

采集说明:本快照因 ArXiv API 限流影响 cs.AI 和 cs.MA 类别而实现部分覆盖。预计下周快照将恢复完整覆盖。

ArXiv cs.AI 周度追踪:自改进智能体框架趋同,领域安全护栏涌现

本周 ArXiv cs.AI 论文追踪收录 18 篇智能体相关论文,自改进智能体框架 MUSE-Autoskill 与 SIA 独立提出技能生命周期架构并获得最高趋势评分,金融与情感支持领域涌现专用安全护栏方案,RLHF 被揭示存在偏好数据集结构性漏洞。

AgentScout · · · 8 分钟阅读
#arxiv #ai-papers #agents #weekly-tracker #self-improving-agents #safety-harness #rlhf #multimodal
Analyzing Data Nodes...
SIG_CONF:CALCULATING
Verified Sources

数据概览

  • 快照周次:2026-05-22 至 2026-05-28
  • 追踪器:ArXiv cs.AI 周度论文追踪(查看所有历史快照:/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly
  • 更新频率:每周
  • 主要信源ArXiv cs.CL APIBrave Search

关键数据

  • :来自 ArXiv cs.CL(因 API 限流作为主类别)的 18 篇智能体相关论文
  • 什么:自改进智能体框架(MUSE-Autoskill、SIA)主导;领域专用安全护栏涌现(FinHarness、ENPMR-Bench);RLHF 漏洞被发现
  • 何时:2026 年 5 月 22 日至 28 日这一周
  • 影响:36% 的智能体相关率;3 篇多智能体论文;智能体论文平均趋势得分 5.2,整体平均 2.4

方法论

论文每周从 ArXiv API 查询采集,目标类别包括 cs.CL、cs.AI 及相关类别。智能体相关论文通过标题和摘要的关键词匹配识别(agent、multi-agent、autonomous、tool use、planning、reasoning)。趋势得分(1-10)根据与核心智能体研究主题的相关性、方法新颖度和潜在影响综合评定。

本快照反映了 2026 年 5 月 22 日至 28 日这一周提交或更新的论文。采集受限于 cs.AI 和 cs.MA 类别的 API 限流;Brave Search 提供了补充覆盖。

本周数据

热度排名靠前的论文

排名标题ArXiv ID趋势核心创新
1MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation2605.273668统一技能生命周期管理(创建、记忆、评估、优化)
2SIA: Self Improving AI with Harness & Weight Updates2605.272768结合护栏与权重更新的自主改进(LawBench 提升 56.6%)
3FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents2605.273337金融专用安全护栏(攻击成功率从 38.3% 降至 15.0%)
4QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents2605.270687多模态智能体审计(15.1% 空间幻觉,超 50% 无据指控)
5Alignment Tampering: How RLHF Is Exploited to Optimize Misaligned Biases2605.273556LLM 影响偏好数据集时 RLHF 的漏洞(ICML 2026)
6ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents2605.272405基于马斯洛理论的情感支持主动记忆检索

智能体相关论文完整列表(18 篇)

ArXiv ID标题类别趋势焦点
2605.27366MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluationcs.AI8自改进、技能生命周期
2605.27276SIA: Self Improving AI with Harness & Weight Updatescs.AI8自改进、元智能体
2605.27333FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agentscs.CL7安全护栏、金融
2605.27068QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agentscs.CL7多模态、审计、幻觉
2605.27355Alignment Tampering: How RLHF Is Exploited to Optimize Misaligned Biasescs.AI6RLHF、对齐、安全
2605.27240ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agentscs.CL5情感支持、记忆
2605.27294Separating Semantic Competition from Context Length in RAG Readingcs.CL3RAG、检索
2605.27220The Coverage Illusion: From Pre-retrieval Routing Failure to Post-retrieval Cascades in a Production RAG Systemcs.CL3RAG、生产环境
2605.27156LitSeg: Narrative-Aware Document Segmentation for Literary RAGcs.CL4RAG、分段
2605.27110BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoningcs.CR4越狱、智能体安全
2605.27030Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scalingcs.CL4推理、测试时扩展
2605.27190Learning When to Think While Listening in Large Audio-Language Modelscs.CL4音频语言、推理

周度对比

指标本周上周变化
采集论文总数50498-448(-89.9%)
智能体相关论文18167-149(-89.2%)
多智能体系统328-25(-89.3%)
平均趋势得分(智能体)5.2-N/A
最高趋势得分810-2

注意:本周采集受 ArXiv API 限流影响(cs.AI、cs.MA 类别被限制;cs.CL 成功)。论文总数减少 89.9% 反映的是部分覆盖,而非实际投稿量下降。预计下周将恢复完整覆盖。

生态指标

类别数量占比
扫描论文总数50100%
智能体相关论文1836.0%
多智能体系统36.0%
安全相关48.0%
RAG 相关48.0%
推理510.0%
多模态24.0%

类别分布

主类别数量占比
cs.CL3264.0%
cs.AI816.0%
cs.LG612.0%
cs.CV24.0%
cs.CR12.0%

主题聚类

聚类论文数关键词
自改进智能体3技能生命周期、权重更新、元智能体
安全护栏4金融、情感支持、越狱、RLHF
RAG 优化4检索、分段、覆盖、竞争
多模态审计2幻觉、社会推理
推理控制2测试时扩展、音频语言

趋势与观察

  • 自改进智能体架构趋同:MUSE-Autoskill 和 SIA 独立提出了几乎相同的架构——技能生命周期管理结合权重/护栏更新。这种趋同表明智能体自主性的范式正在形成。MUSE-Autoskill 提供了理论框架(创建、记忆、评估、优化),而 SIA 在 LawBench 上验证了 56.6% 的提升。

  • 领域专用安全护栏涌现:通用智能体安全框架正让位于专用解决方案。FinHarness 针对金融大语言模型智能体,采用三模块架构(查询监控、工具监控、级联),将攻击成功率从 38.3% 降至 15.0%,同时保持良性审批率。ENPMR-Bench 面向情感支持智能体,引入基于马斯洛理论的主动记忆检索。这种专业化趋势表明,通用安全方案不足以支撑生产环境部署。

  • RLHF 结构性漏洞被发现:《对齐篡改》(Alignment Tampering,ICML 2026 录用)揭示了 RLHF 偏好反馈循环中的根本缺陷——当大语言模型输出影响偏好数据集时,训练过程可能放大而非纠正偏差行为。这不是实现漏洞,而是 RLHF 范式本身的结构性缺陷。

  • 多模态幻觉持续存在:QUACK 揭示顶级视觉语言模型在空间声明上存在 15.1% 的幻觉,在社会推理场景中超过 50% 的指控缺乏依据。该框架引入了系统性审计方法,但结果凸显多模态接地仍待解决。

  • RAG 理解深化:三篇 RAG 论文从不同角度推进了检索理解:《覆盖假象》揭示了合成查询与真实查询分布之间的差距;LitSeg 为文学作品引入叙事感知分段;《语义竞争》分离了检索干扰与上下文长度效应。这些研究共同表明,生产级 RAG 系统存在系统性盲点。

🔺 独家情报:别处看不到的洞察

置信度: 高 | 新颖度评分: 65/100

本周 ArXiv 快照揭示了三个主流报道忽视的新兴趋势:

1. 自改进智能体架构趋同:MUSE-Autoskill 和 SIA 独立提出了相似的架构——技能生命周期结合权重/护栏更新——表明这可能成为智能体自主性的范式。跨研究团队(华为、独立研究者)的趋同指向理论吸引子而非巧合。

2. 领域专用安全护栏:FinHarness(金融)和 ENPMR-Bench(情感支持)证明通用智能体安全框架需要领域专用调优才能达到实用防护率。FinHarness 将攻击成功率从 38.3% 降至 15.0%,得益于理解交易语义的金融专用模块(查询监控、工具监控、级联)。通用安全基准系统性高估了垂直应用的防护能力。

3. RLHF 结构性漏洞:《对齐篡改》(ICML 2026)显示 RLHF 的偏好反馈循环可被利用——这是一个根本缺陷,可能需要重新思考训练后对齐。论文证明当大语言模型输出影响偏好数据集时,优化过程会放大而非纠正不良行为。这对所有依赖 RLHF 作为主要对齐机制的前沿模型提供商都有影响。

关键启示:在生产环境部署智能体的团队应评估领域专用安全护栏,而非依赖通用安全基准——FinHarness 23.3 个百分点的攻击成功率改善证明,安全度量当前与部署现实存在错位。

历史快照

信息来源

采集说明:本快照因 ArXiv API 限流影响 cs.AI 和 cs.MA 类别而实现部分覆盖。预计下周快照将恢复完整覆盖。

y9mgs2nbab4sj893pp1oi░░░tvab4vhqd3nsffbdtr76iscsiv1sbqk░░░a8omg5zpcco1p2m5pevr0y0lecbux6u4uq████6eo9wpiowpm1db17iczwgdgm35pevdond████1ped32gr178jk7x8sb735te6tkgk9iopc░░░xnrz2bnayqell323ymqyzgkax8irups5████a09rxeqfneg7cr8ylox2xx3ws69myb8wu░░░hocfgkkd91thk63ok5z2hww1tqpyotx░░░2nfney23du1cy4vzrw2664bhecwg5cagd████jn5pc5ptnwgr60yhndnr84rc373xvpp████gwtuaiqldj1en2xlfy8cpe8jzmuw51bc░░░i77wcn0ugof24ofqrb6xp1nw2bj0czj6i░░░qpzdnovlw98owp7tb88t7matqny9iocnn░░░pf476q4wtdlh5fb106krurry9kwan5yzk████y5fr9vn1a5bihemrnn7i5cp4wfyczrwf████60ot3w4zb8ubxhkrs547ajlgpotiyrx░░░86nlerz631cud3is58bnqv5algrn2wb░░░s02qkcn328ywjoxvmj15gjsay4vm8bn████g33bwt6rlmu8553t8zxb9lc8168bj6xj7░░░x13142dhquvzi0fv5vgsgxl5p8peelij░░░o24enqtn8v9qh2sst7kupd4pzvxjwct7a████enct5ykisuux034xi6s922mzxdgn8gy2░░░4nwcfgoguwx17aiaoawqoee1x46bg3qd5░░░4zdltrnh7u74675tnjfb2c122ehke3pw7q████uc2fxj7oxb0ykicsr8hihn4ejgi5iub7d████1ib3hrsz0feql8buji9a41zbr7duwsx6░░░9m7cq9z7m68svuehshp0o9gf7k9xz0af░░░vlppr702v2n62p18awce9a1vcglhs3elw░░░72rtt4o16x9uugoudcu6i94h2hy2y4aev████ouxbexnwdveib5hulj6b7f46nlirjq2████dkxmve7t7qff3rv8dt74dcywvklprrvsb████quadthbudubbxv3u8mmxq5qzpinjod87████jchka5syyd1xbocz6rcgojfmvdqyz4adr████cun4gexqdzhm81g94e1xlbb0xqx8mw9co████farts5639bef6cur4z02z5chf6nxa4vu░░░hbckmo5u1glhy0riwjp16w8ushfjhlxlq░░░hlniuzov73a5hiiju0na33rmeph8lli7░░░g2gb4cvut2inm8obqa9lowr3ysbmm21n████ivimgey8br97by68nlcgrje7yvdc87hc████oyu3t3m8uvpxiy9yp71jnfuofm44e1w████9yh3s200u04dfd6i1w1wlp2zfmoa4jq░░░ttljzvla9jhce4lpmrowciq0hgh8p9he████0td6dwpmjrd82x3u1o58l56jch0zd9vdn████3ksekc19n0529a3r0hyme5zjthqn5be6i░░░phn6kpsj2onpf2ew6406cstxvy210d5d░░░y3vr1g8rfdrnot0nr3hepsaivi83w4c3h░░░kfh2ekw1dolnmm5mxr4ptnl6l2fh3g6na░░░sz0180g19py255jzl4eknmlo0a5umtld░░░89w1rovcyi2bx1oqmdjs98lpsxud2ko8████l2i5smqut7uazb9jehtxamjusl4ck9a████zsf1zk82sjs