ArXiv 智能体论文周报:自进化架构与分布式网络取得重大突破
本周追踪三十五篇人工智能领域论文,揭示自进化智能体、分布式网络架构和创意领域基准测试的三大突破性进展。研究显示,九十亿参数的进化模型直接挑战三千九百七十亿参数的前沿模型,游戏创作基准测试则暴露出前沿模型在创意任务中的显著短板。
数据概览
- 快照周期:2026-06-11 至 2026-06-18
- 追踪器:ArXiv AI Agent 论文追踪(查看所有快照:
/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly) - 更新频率:每周
- 主要来源:ArXiv cs.AI RSS、ArXiv cs.CL RSS、HuggingFace Daily Papers
关键事实
- 数量:共 35 篇论文,其中 28 篇为 Agent 相关(80%),6 篇为多 Agent 系统,3 篇为自进化 Agent
- 内容:引入 7 个新基准测试;Agent 相关论文平均趋势评分达 8.1(较上周 7.4 上升)
- 时间:2026 年 6 月 18 日当周
- 影响:OPD-Evolver、GameCraft-Bench 和分布式 Agent 网络成为高评分论文(趋势评分 10/10)
方法论
本追踪器每周监控 ArXiv cs.AI 和 cs.CL RSS 订阅源,筛选 Agent 相关研究。论文评分采用综合趋势评分(1-10),基于以下维度:新颖性、引用潜力、基准测试贡献和社区参与度(HuggingFace 点赞数)。Agent 相关论文通过标题和摘要关键词匹配识别。数据采集通过 Jina Reader API 完成;ArXiv API 直接访问仍被封锁。
本周指标
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 论文总数 | 35 | 31 | +4 |
| Agent 相关 | 28 | 28 | 0 |
| Agent 占比 | 80% | 90% | -10pp |
| 新基准测试 | 7 | 7 | 0 |
| 平均趋势评分(Agent) | 8.1 | 7.4 | +0.7 |
| 多 Agent 论文 | 6 | 4 | +2 |
| 自进化 Agent | 3 | 2 | +1 |
本周高关注论文
| 标题 | ArXiv ID | 趋势评分 | 核心主题 |
|---|---|---|---|
| OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation | 2606.17628 | 10 | agent evolution, self-evolving agents, memory hierarchy |
| Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes | 2606.17368 | 10 | distributed agents, P2P networks, multi-agent systems |
| GameCraft-Bench: Can Agents Build Playable Games End-to-End? | 2606.17861 | 10 | game generation agents, coding benchmarks, creative agents |
| Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search | 2606.17209 | 9 | agentic search, multi-hop reasoning, query diversification |
| When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval | 2606.17220 | 9 | self-evolving agents, legal AI, rule evolution |
| From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning | 2606.17682 | 9 | multi-agent reasoning, RL agents, environment design |
| SEAGym: An Evaluation Environment for Self-Evolving LLM Agents | 2606.17546 | 9 | self-evolving agents, agent evaluation, evolution tracking |
| EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks | 2606.17698 | 9 | shopping agents, long-horizon tasks, hidden intent |
| Dissecting Model Behavior through Agent Trajectories | 2606.17454 | 9 | trajectory analysis, agent behavior, harness design |
显著基准测试
| 基准测试 | ArXiv ID | 领域 | 核心发现 |
|---|---|---|---|
| GameCraft-Bench | 2606.17861 | 游戏生成 | 首个端到端游戏生成基准测试(Godot 引擎);前沿模型成功率仅 41.46% |
| EComAgentBench | 2606.17698 | 电商 | 662 个购物任务,包含分布式隐藏意图;最佳模型准确率 57.1% |
| SEAGym | 2606.17546 | Agent 进化 | 追踪自进化 Agent 在训练/验证/测试/回放/成本各阶段的 Harness 更新 |
| MapSatisfyBench | 2606.17453 | 导航 | 评估感知满意度的地图 Agent,隐式决策因子来自真实用户数据 |
| CEO-Bench | 2606.17459 | 战略 | 多 Agent 高管模拟的战略资源重新分配;揭示单一顾问捕获失效模式 |
| MemTrace | 2606.17328 | 记忆 | 长期记忆基准测试,揭示证据使用瓶颈主导失败 |
| LongWebBench | 2606.17727 | 网页生成 | 490 个结构化 + 507 个功能性任务,面向长时程网页生成 |
热门话题
| 话题 | 论文数量 | 平均趋势评分 | 代表论文 |
|---|---|---|---|
| 自进化 Agent | 3 | 9.3 | OPD-Evolver, When Rules Learn, SEAGym |
| 分布式 Agent | 1 | 10.0 | Distributed General-Purpose Agent Networks |
| 多 Agent 系统 | 6 | 8.2 | CEO-Bench, Trainee to Trainer, Parasocial Scripts |
| Agent 基准测试 | 7 | 7.9 | GameCraft-Bench, EComAgentBench, SEAGym |
| Agent 记忆 | 4 | 7.5 | MemSlides, FinAcumen, MemTrace |
| Agent 搜索 | 1 | 9.0 | DivInit |
🔺 独家情报:别处看不到的洞察
置信度: 高 | 新颖度评分: 62/100
虽然单篇论文在 HuggingFace 上获得关注,但本周 35 篇论文的集体信号揭示了三个结构性转变,这些是大多数报道所忽略的:
1. 自进化 Agent 正在缩小参数差距。 OPD-Evolver 的 9B 参数模型超越 ReasoningBank 11.5% 和 Skill0 5.8%,直接挑战 397B 前沿模型。这不是增量改进——它表明结构化记忆层次(OPD-Evolver 的四级架构)可以替代原始规模。对于 Agent 进化任务,架构比参数数量更重要。
2. 创意领域基准测试暴露前沿模型局限性。 GameCraft-Bench 显示,即使最强的代码 Agent 在端到端游戏生成上也仅达到 41.46% 的成功率。EComAgentBench 的最佳模型在包含分散需求的购物任务上仅达到 57.1%。这些结果与传统基准测试上 90%+ 的分数形成鲜明对比,揭示前沿模型在需要长时程规划和隐式需求发现的多步骤创意任务上仍面临挑战。
3. 分布式 P2P Agent 网络作为架构替代方案兴起。 关于分布式通用 Agent 网络的论文(趋势评分 10)引入了首个系统性的点对点 Agent 协作框架,采用基于 BAID 的身份绑定和 MG-EigenTrust 信誉机制。这将范式从单一 Agent 编排(LangChain、CrewAI)转向去中心化 Agent 网络——这是当前主要框架均未涉及的方向。
关键启示: 构建 Agent 系统的企业团队应优先考虑记忆架构设计(OPD-Evolver 的慢快协同进化),而非模型参数数量,并为分布式 Agent 网络做好准备——这是当前编排框架之后的下一个架构演进方向。
趋势与观察
-
自进化框架激增:本周三篇论文聚焦具有显式记忆层次的自进化 Agent,较上周两篇有所增加。相对 ReasoningBank 提升 11.5% 表明慢快协同进化架构正在成熟。
-
基准测试转向复杂真实任务:七个新基准测试针对多步推理、创意生成和隐藏意图发现——从单轮任务转向需要持续 Agent 推理的场景。
-
规模化轨迹分析:本周分析了 138k 条 Agent 轨迹,揭示模型特定的行为模式。这种定量的 Agent 行为分析方法正在成为标准评估工具。
-
Agent 记忆架构多样化:出现四种不同的记忆方法——层次化(MemSlides)、基于经验(FinAcumen)、长期(MemTrace)和进化追踪(SEAGym)。尚无共识架构;该领域正在探索多个设计方向。
-
长时程推理获得关注:多个基准测试(EComAgentBench、LongWebBench、GameCraft-Bench)专门针对需要 10 步以上的任务,表明该领域正从单轮转向持续推理。
周度对比总结
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 追踪论文数 | 35 | 31 | +4 |
| Agent 相关论文 | 28 | 28 | 0 |
| Agent 占比 | 80% | 90% | -10pp |
| 平均趋势评分(Agent) | 8.1 | 7.4 | +0.7 |
| 多 Agent 论文 | 6 | 4 | +2 |
| 自进化 Agent | 3 | 2 | +1 |
| 引入基准测试 | 7 | 7 | 0 |
| 趋势评分 ≥ 9 | 9 篇 | 4 篇 | +5 |
显著变化:Agent 论文平均趋势评分周环比上升 0.7 分,由三篇趋势评分 10 的论文驱动(OPD-Evolver、分布式 Agent 网络、GameCraft-Bench)。这表明 Agent 领域的研究质量集中度更高。
完整论文列表
| 标题 | 作者 | 分类 | 发布日期 | 评分 | ArXiv | HF |
|---|---|---|---|---|---|---|
| OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation | NUS Research Team | cs.AI | 2026-06-17 | 10 | 2606.17628 | 链接 |
| Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes | Multiple authors | cs.AI | 2026-06-17 | 10 | 2606.17368 | — |
| GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? | CUHKSZ | cs.AI | 2026-06-17 | 10 | 2606.17861 | 链接 |
| Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search | CMU Research Team | cs.AI | 2026-06-17 | 9 | 2606.17209 | — |
| When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17220 | — |
| From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17682 | — |
| SEAGym: An Evaluation Environment for Self-Evolving LLM Agents | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17546 | — |
| EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17698 | — |
| Dissecting Model Behavior through Agent Trajectories | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17454 | — |
| Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17519 | — |
| Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17459 | — |
| Environment-Grounded Automated Prompt Optimization for LLM Game Agents | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17838 | — |
| MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation | Ye Jin, Yangyang Xu, Jun Zhu, Yibo Yang | cs.CL | 2026-06-17 | 8 | 2606.17162 | — |
| MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17453 | — |
| Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17591 | — |
| StepGuard: Guarding Web Navigation via Single-Step Calibration | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17871 | — |
| FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17642 | — |
| Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17645 | — |
| Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17577 | — |
| DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17821 | — |
| LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17507 | — |
| AIPatient Arena: EHR-grounded evaluation of LLMs in clinical consultation workflows | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17474 | — |
| From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities | Mohammadsadegh Abolhasani et al. | cs.CL | 2026-06-17 | 7 | 2606.17174 | — |
| LecturaAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning | Multiple authors | cs.CL | 2026-06-15 | 7 | 2606.16428 | 链接 |
| DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17574 | — |
| FlowRAG: Synergizing Explicit Reasoning via Frequency-Aware Multi-Granularity Graph Flow | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17856 | — |
| MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation | Multiple authors | cs.CL | 2026-06-17 | 7 | 2606.17449 | — |
| Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17637 | — |
| LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17727 | — |
| MemTrace: Probing What Final Accuracy Misses in Long-Term Memory | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17328 | — |
| PromptMN: Pseudo Prompting Language | Enkhzol Dovdon | cs.CL | 2026-06-17 | 6 | 2606.17164 | — |
| LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling | 19 authors | cs.AI | 2026-06-17 | 6 | 2606.18023 | 链接 |
| Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients | NVIDIA | cs.AI | 2026-06-17 | 6 | 2606.18216 | 链接 |
| ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining | CUHK | cs.AI | 2026-06-17 | 6 | 2606.17200 | 链接 |
历史快照
信息来源
- ArXiv cs.AI RSS Feed — ArXiv, 2026-06-18
- ArXiv cs.CL RSS Feed — ArXiv, 2026-06-18
- HuggingFace Daily Papers — HuggingFace, 2026-06-17
ArXiv 智能体论文周报:自进化架构与分布式网络取得重大突破
本周追踪三十五篇人工智能领域论文,揭示自进化智能体、分布式网络架构和创意领域基准测试的三大突破性进展。研究显示,九十亿参数的进化模型直接挑战三千九百七十亿参数的前沿模型,游戏创作基准测试则暴露出前沿模型在创意任务中的显著短板。
数据概览
- 快照周期:2026-06-11 至 2026-06-18
- 追踪器:ArXiv AI Agent 论文追踪(查看所有快照:
/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly) - 更新频率:每周
- 主要来源:ArXiv cs.AI RSS、ArXiv cs.CL RSS、HuggingFace Daily Papers
关键事实
- 数量:共 35 篇论文,其中 28 篇为 Agent 相关(80%),6 篇为多 Agent 系统,3 篇为自进化 Agent
- 内容:引入 7 个新基准测试;Agent 相关论文平均趋势评分达 8.1(较上周 7.4 上升)
- 时间:2026 年 6 月 18 日当周
- 影响:OPD-Evolver、GameCraft-Bench 和分布式 Agent 网络成为高评分论文(趋势评分 10/10)
方法论
本追踪器每周监控 ArXiv cs.AI 和 cs.CL RSS 订阅源,筛选 Agent 相关研究。论文评分采用综合趋势评分(1-10),基于以下维度:新颖性、引用潜力、基准测试贡献和社区参与度(HuggingFace 点赞数)。Agent 相关论文通过标题和摘要关键词匹配识别。数据采集通过 Jina Reader API 完成;ArXiv API 直接访问仍被封锁。
本周指标
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 论文总数 | 35 | 31 | +4 |
| Agent 相关 | 28 | 28 | 0 |
| Agent 占比 | 80% | 90% | -10pp |
| 新基准测试 | 7 | 7 | 0 |
| 平均趋势评分(Agent) | 8.1 | 7.4 | +0.7 |
| 多 Agent 论文 | 6 | 4 | +2 |
| 自进化 Agent | 3 | 2 | +1 |
本周高关注论文
| 标题 | ArXiv ID | 趋势评分 | 核心主题 |
|---|---|---|---|
| OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation | 2606.17628 | 10 | agent evolution, self-evolving agents, memory hierarchy |
| Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes | 2606.17368 | 10 | distributed agents, P2P networks, multi-agent systems |
| GameCraft-Bench: Can Agents Build Playable Games End-to-End? | 2606.17861 | 10 | game generation agents, coding benchmarks, creative agents |
| Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search | 2606.17209 | 9 | agentic search, multi-hop reasoning, query diversification |
| When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval | 2606.17220 | 9 | self-evolving agents, legal AI, rule evolution |
| From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning | 2606.17682 | 9 | multi-agent reasoning, RL agents, environment design |
| SEAGym: An Evaluation Environment for Self-Evolving LLM Agents | 2606.17546 | 9 | self-evolving agents, agent evaluation, evolution tracking |
| EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks | 2606.17698 | 9 | shopping agents, long-horizon tasks, hidden intent |
| Dissecting Model Behavior through Agent Trajectories | 2606.17454 | 9 | trajectory analysis, agent behavior, harness design |
显著基准测试
| 基准测试 | ArXiv ID | 领域 | 核心发现 |
|---|---|---|---|
| GameCraft-Bench | 2606.17861 | 游戏生成 | 首个端到端游戏生成基准测试(Godot 引擎);前沿模型成功率仅 41.46% |
| EComAgentBench | 2606.17698 | 电商 | 662 个购物任务,包含分布式隐藏意图;最佳模型准确率 57.1% |
| SEAGym | 2606.17546 | Agent 进化 | 追踪自进化 Agent 在训练/验证/测试/回放/成本各阶段的 Harness 更新 |
| MapSatisfyBench | 2606.17453 | 导航 | 评估感知满意度的地图 Agent,隐式决策因子来自真实用户数据 |
| CEO-Bench | 2606.17459 | 战略 | 多 Agent 高管模拟的战略资源重新分配;揭示单一顾问捕获失效模式 |
| MemTrace | 2606.17328 | 记忆 | 长期记忆基准测试,揭示证据使用瓶颈主导失败 |
| LongWebBench | 2606.17727 | 网页生成 | 490 个结构化 + 507 个功能性任务,面向长时程网页生成 |
热门话题
| 话题 | 论文数量 | 平均趋势评分 | 代表论文 |
|---|---|---|---|
| 自进化 Agent | 3 | 9.3 | OPD-Evolver, When Rules Learn, SEAGym |
| 分布式 Agent | 1 | 10.0 | Distributed General-Purpose Agent Networks |
| 多 Agent 系统 | 6 | 8.2 | CEO-Bench, Trainee to Trainer, Parasocial Scripts |
| Agent 基准测试 | 7 | 7.9 | GameCraft-Bench, EComAgentBench, SEAGym |
| Agent 记忆 | 4 | 7.5 | MemSlides, FinAcumen, MemTrace |
| Agent 搜索 | 1 | 9.0 | DivInit |
🔺 独家情报:别处看不到的洞察
置信度: 高 | 新颖度评分: 62/100
虽然单篇论文在 HuggingFace 上获得关注,但本周 35 篇论文的集体信号揭示了三个结构性转变,这些是大多数报道所忽略的:
1. 自进化 Agent 正在缩小参数差距。 OPD-Evolver 的 9B 参数模型超越 ReasoningBank 11.5% 和 Skill0 5.8%,直接挑战 397B 前沿模型。这不是增量改进——它表明结构化记忆层次(OPD-Evolver 的四级架构)可以替代原始规模。对于 Agent 进化任务,架构比参数数量更重要。
2. 创意领域基准测试暴露前沿模型局限性。 GameCraft-Bench 显示,即使最强的代码 Agent 在端到端游戏生成上也仅达到 41.46% 的成功率。EComAgentBench 的最佳模型在包含分散需求的购物任务上仅达到 57.1%。这些结果与传统基准测试上 90%+ 的分数形成鲜明对比,揭示前沿模型在需要长时程规划和隐式需求发现的多步骤创意任务上仍面临挑战。
3. 分布式 P2P Agent 网络作为架构替代方案兴起。 关于分布式通用 Agent 网络的论文(趋势评分 10)引入了首个系统性的点对点 Agent 协作框架,采用基于 BAID 的身份绑定和 MG-EigenTrust 信誉机制。这将范式从单一 Agent 编排(LangChain、CrewAI)转向去中心化 Agent 网络——这是当前主要框架均未涉及的方向。
关键启示: 构建 Agent 系统的企业团队应优先考虑记忆架构设计(OPD-Evolver 的慢快协同进化),而非模型参数数量,并为分布式 Agent 网络做好准备——这是当前编排框架之后的下一个架构演进方向。
趋势与观察
-
自进化框架激增:本周三篇论文聚焦具有显式记忆层次的自进化 Agent,较上周两篇有所增加。相对 ReasoningBank 提升 11.5% 表明慢快协同进化架构正在成熟。
-
基准测试转向复杂真实任务:七个新基准测试针对多步推理、创意生成和隐藏意图发现——从单轮任务转向需要持续 Agent 推理的场景。
-
规模化轨迹分析:本周分析了 138k 条 Agent 轨迹,揭示模型特定的行为模式。这种定量的 Agent 行为分析方法正在成为标准评估工具。
-
Agent 记忆架构多样化:出现四种不同的记忆方法——层次化(MemSlides)、基于经验(FinAcumen)、长期(MemTrace)和进化追踪(SEAGym)。尚无共识架构;该领域正在探索多个设计方向。
-
长时程推理获得关注:多个基准测试(EComAgentBench、LongWebBench、GameCraft-Bench)专门针对需要 10 步以上的任务,表明该领域正从单轮转向持续推理。
周度对比总结
| 指标 | 本周 | 上周 | 变化 |
|---|---|---|---|
| 追踪论文数 | 35 | 31 | +4 |
| Agent 相关论文 | 28 | 28 | 0 |
| Agent 占比 | 80% | 90% | -10pp |
| 平均趋势评分(Agent) | 8.1 | 7.4 | +0.7 |
| 多 Agent 论文 | 6 | 4 | +2 |
| 自进化 Agent | 3 | 2 | +1 |
| 引入基准测试 | 7 | 7 | 0 |
| 趋势评分 ≥ 9 | 9 篇 | 4 篇 | +5 |
显著变化:Agent 论文平均趋势评分周环比上升 0.7 分,由三篇趋势评分 10 的论文驱动(OPD-Evolver、分布式 Agent 网络、GameCraft-Bench)。这表明 Agent 领域的研究质量集中度更高。
完整论文列表
| 标题 | 作者 | 分类 | 发布日期 | 评分 | ArXiv | HF |
|---|---|---|---|---|---|---|
| OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation | NUS Research Team | cs.AI | 2026-06-17 | 10 | 2606.17628 | 链接 |
| Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes | Multiple authors | cs.AI | 2026-06-17 | 10 | 2606.17368 | — |
| GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? | CUHKSZ | cs.AI | 2026-06-17 | 10 | 2606.17861 | 链接 |
| Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search | CMU Research Team | cs.AI | 2026-06-17 | 9 | 2606.17209 | — |
| When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17220 | — |
| From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17682 | — |
| SEAGym: An Evaluation Environment for Self-Evolving LLM Agents | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17546 | — |
| EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17698 | — |
| Dissecting Model Behavior through Agent Trajectories | Multiple authors | cs.AI | 2026-06-17 | 9 | 2606.17454 | — |
| Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17519 | — |
| Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17459 | — |
| Environment-Grounded Automated Prompt Optimization for LLM Game Agents | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17838 | — |
| MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation | Ye Jin, Yangyang Xu, Jun Zhu, Yibo Yang | cs.CL | 2026-06-17 | 8 | 2606.17162 | — |
| MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17453 | — |
| Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17591 | — |
| StepGuard: Guarding Web Navigation via Single-Step Calibration | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17871 | — |
| FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17642 | — |
| Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns | Multiple authors | cs.AI | 2026-06-17 | 8 | 2606.17645 | — |
| Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17577 | — |
| DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17821 | — |
| LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17507 | — |
| AIPatient Arena: EHR-grounded evaluation of LLMs in clinical consultation workflows | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17474 | — |
| From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities | Mohammadsadegh Abolhasani et al. | cs.CL | 2026-06-17 | 7 | 2606.17174 | — |
| LecturaAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning | Multiple authors | cs.CL | 2026-06-15 | 7 | 2606.16428 | 链接 |
| DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17574 | — |
| FlowRAG: Synergizing Explicit Reasoning via Frequency-Aware Multi-Granularity Graph Flow | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17856 | — |
| MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation | Multiple authors | cs.CL | 2026-06-17 | 7 | 2606.17449 | — |
| Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17637 | — |
| LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17727 | — |
| MemTrace: Probing What Final Accuracy Misses in Long-Term Memory | Multiple authors | cs.AI | 2026-06-17 | 7 | 2606.17328 | — |
| PromptMN: Pseudo Prompting Language | Enkhzol Dovdon | cs.CL | 2026-06-17 | 6 | 2606.17164 | — |
| LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling | 19 authors | cs.AI | 2026-06-17 | 6 | 2606.18023 | 链接 |
| Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients | NVIDIA | cs.AI | 2026-06-17 | 6 | 2606.18216 | 链接 |
| ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining | CUHK | cs.AI | 2026-06-17 | 6 | 2606.17200 | 链接 |
历史快照
信息来源
- ArXiv cs.AI RSS Feed — ArXiv, 2026-06-18
- ArXiv cs.CL RSS Feed — ArXiv, 2026-06-18
- HuggingFace Daily Papers — HuggingFace, 2026-06-17
相关情报
大语言模型产品发布周度追踪报告 — 2026 年 6 月 16 日当周
Anthropic 发布 Fable 5 与 Mythos 5 后立即遭遇出口管制指令暂停访问,Google 宣布弃用 Imagen 4 和 Veo 模型,Anthropic 保密提交 S-1 文件预示即将启动 IPO 进程,本周共追踪到 11 条产品发布,其中 5 条高影响事件。
2026 年 AI 智能体市场变革:集成开发环境整合、资本集中与评估差距
2026 年 6 月三大结构性变革重塑市场:Windsurf 分拆表明 AI 集成开发环境寡头垄断形成,第一季度 67% 资本流向三家前沿实验室,CLEAR 框架填补 37% 实验室到生产差距,企业部署智能体需根本性调整策略,重新评估锁定风险与评估体系。
GitHub AI 智能体仓库星标周报:六月中旬生态数据分析
本周快照追踪152个AI Agent仓库的星标增长动态数据。santifer/career-ops项目以7.85%周增长率领跑生态系统,Python语言占比43%保持技术栈主导地位。数据涵盖星标超千级仓库、新增项目及语言分布趋势分析。