ArXiv 智能体论文周报：自进化架构与分布式网络取得重大突破

Name: ArXiv 智能体论文周报：自进化架构与分布式网络取得重大突破
Creator: AgentScout
Published: 2026-06-18T00:00:00.000Z
Keywords: ai-agents, arxiv, research-papers, agent-benchmarks, self-evolving-agents

本周追踪三十五篇人工智能领域论文，揭示自进化智能体、分布式网络架构和创意领域基准测试的三大突破性进展。研究显示，九十亿参数的进化模型直接挑战三千九百七十亿参数的前沿模型，游戏创作基准测试则暴露出前沿模型在创意任务中的显著短板。

AgentScout · 发布于 2026年6月18日 · 更新于 2026年6月18日 · 8 分钟阅读

#ai-agents #arxiv #research-papers #agent-benchmarks #self-evolving-agents

Analyzing Data Nodes...

SIG_CONF:CALCULATING

Verified Sources

数据概览

快照周期：2026-06-11 至 2026-06-18
追踪器：ArXiv AI Agent 论文追踪（查看所有快照：/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly）
更新频率：每周
主要来源：ArXiv cs.AI RSS、ArXiv cs.CL RSS、HuggingFace Daily Papers

关键事实

数量：共 35 篇论文，其中 28 篇为 Agent 相关（80%），6 篇为多 Agent 系统，3 篇为自进化 Agent
内容：引入 7 个新基准测试；Agent 相关论文平均趋势评分达 8.1（较上周 7.4 上升）
时间：2026 年 6 月 18 日当周
影响：OPD-Evolver、GameCraft-Bench 和分布式 Agent 网络成为高评分论文（趋势评分 10/10）

方法论

本追踪器每周监控 ArXiv cs.AI 和 cs.CL RSS 订阅源，筛选 Agent 相关研究。论文评分采用综合趋势评分（1-10），基于以下维度：新颖性、引用潜力、基准测试贡献和社区参与度（HuggingFace 点赞数）。Agent 相关论文通过标题和摘要关键词匹配识别。数据采集通过 Jina Reader API 完成；ArXiv API 直接访问仍被封锁。

本周指标

指标	本周	上周	变化
论文总数	35	31	+4
Agent 相关	28	28	0
Agent 占比	80%	90%	-10pp
新基准测试	7	7	0
平均趋势评分（Agent）	8.1	7.4	+0.7
多 Agent 论文	6	4	+2
自进化 Agent	3	2	+1

本周高关注论文

标题	ArXiv ID	趋势评分	核心主题
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation	2606.17628	10	agent evolution, self-evolving agents, memory hierarchy
Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes	2606.17368	10	distributed agents, P2P networks, multi-agent systems
GameCraft-Bench: Can Agents Build Playable Games End-to-End?	2606.17861	10	game generation agents, coding benchmarks, creative agents
Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search	2606.17209	9	agentic search, multi-hop reasoning, query diversification
When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval	2606.17220	9	self-evolving agents, legal AI, rule evolution
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning	2606.17682	9	multi-agent reasoning, RL agents, environment design
SEAGym: An Evaluation Environment for Self-Evolving LLM Agents	2606.17546	9	self-evolving agents, agent evaluation, evolution tracking
EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks	2606.17698	9	shopping agents, long-horizon tasks, hidden intent
Dissecting Model Behavior through Agent Trajectories	2606.17454	9	trajectory analysis, agent behavior, harness design

显著基准测试

基准测试	ArXiv ID	领域	核心发现
GameCraft-Bench	2606.17861	游戏生成	首个端到端游戏生成基准测试（Godot 引擎）；前沿模型成功率仅 41.46%
EComAgentBench	2606.17698	电商	662 个购物任务，包含分布式隐藏意图；最佳模型准确率 57.1%
SEAGym	2606.17546	Agent 进化	追踪自进化 Agent 在训练/验证/测试/回放/成本各阶段的 Harness 更新
MapSatisfyBench	2606.17453	导航	评估感知满意度的地图 Agent，隐式决策因子来自真实用户数据
CEO-Bench	2606.17459	战略	多 Agent 高管模拟的战略资源重新分配；揭示单一顾问捕获失效模式
MemTrace	2606.17328	记忆	长期记忆基准测试，揭示证据使用瓶颈主导失败
LongWebBench	2606.17727	网页生成	490 个结构化 + 507 个功能性任务，面向长时程网页生成

🔺 独家情报：别处看不到的洞察

置信度: 高 | 新颖度评分: 62/100

虽然单篇论文在 HuggingFace 上获得关注，但本周 35 篇论文的集体信号揭示了三个结构性转变，这些是大多数报道所忽略的：

1. 自进化 Agent 正在缩小参数差距。 OPD-Evolver 的 9B 参数模型超越 ReasoningBank 11.5% 和 Skill0 5.8%，直接挑战 397B 前沿模型。这不是增量改进——它表明结构化记忆层次（OPD-Evolver 的四级架构）可以替代原始规模。对于 Agent 进化任务，架构比参数数量更重要。

2. 创意领域基准测试暴露前沿模型局限性。 GameCraft-Bench 显示，即使最强的代码 Agent 在端到端游戏生成上也仅达到 41.46% 的成功率。EComAgentBench 的最佳模型在包含分散需求的购物任务上仅达到 57.1%。这些结果与传统基准测试上 90%+ 的分数形成鲜明对比，揭示前沿模型在需要长时程规划和隐式需求发现的多步骤创意任务上仍面临挑战。

3. 分布式 P2P Agent 网络作为架构替代方案兴起。 关于分布式通用 Agent 网络的论文（趋势评分 10）引入了首个系统性的点对点 Agent 协作框架，采用基于 BAID 的身份绑定和 MG-EigenTrust 信誉机制。这将范式从单一 Agent 编排（LangChain、CrewAI）转向去中心化 Agent 网络——这是当前主要框架均未涉及的方向。

关键启示： 构建 Agent 系统的企业团队应优先考虑记忆架构设计（OPD-Evolver 的慢快协同进化），而非模型参数数量，并为分布式 Agent 网络做好准备——这是当前编排框架之后的下一个架构演进方向。

趋势与观察

自进化框架激增：本周三篇论文聚焦具有显式记忆层次的自进化 Agent，较上周两篇有所增加。相对 ReasoningBank 提升 11.5% 表明慢快协同进化架构正在成熟。
基准测试转向复杂真实任务：七个新基准测试针对多步推理、创意生成和隐藏意图发现——从单轮任务转向需要持续 Agent 推理的场景。
规模化轨迹分析：本周分析了 138k 条 Agent 轨迹，揭示模型特定的行为模式。这种定量的 Agent 行为分析方法正在成为标准评估工具。
Agent 记忆架构多样化：出现四种不同的记忆方法——层次化（MemSlides）、基于经验（FinAcumen）、长期（MemTrace）和进化追踪（SEAGym）。尚无共识架构；该领域正在探索多个设计方向。
长时程推理获得关注：多个基准测试（EComAgentBench、LongWebBench、GameCraft-Bench）专门针对需要 10 步以上的任务，表明该领域正从单轮转向持续推理。

周度对比总结

指标	本周	上周	变化
追踪论文数	35	31	+4
Agent 相关论文	28	28	0
Agent 占比	80%	90%	-10pp
平均趋势评分（Agent）	8.1	7.4	+0.7
多 Agent 论文	6	4	+2
自进化 Agent	3	2	+1
引入基准测试	7	7	0
趋势评分 ≥ 9	9 篇	4 篇	+5

显著变化：Agent 论文平均趋势评分周环比上升 0.7 分，由三篇趋势评分 10 的论文驱动（OPD-Evolver、分布式 Agent 网络、GameCraft-Bench）。这表明 Agent 领域的研究质量集中度更高。

完整论文列表

标题	作者	分类	发布日期	评分	ArXiv	HF
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation	NUS Research Team	cs.AI	2026-06-17	10	2606.17628	链接
Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes	Multiple authors	cs.AI	2026-06-17	10	2606.17368	—
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?	CUHKSZ	cs.AI	2026-06-17	10	2606.17861	链接
Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search	CMU Research Team	cs.AI	2026-06-17	9	2606.17209	—
When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval	Multiple authors	cs.AI	2026-06-17	9	2606.17220	—
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning	Multiple authors	cs.AI	2026-06-17	9	2606.17682	—
SEAGym: An Evaluation Environment for Self-Evolving LLM Agents	Multiple authors	cs.AI	2026-06-17	9	2606.17546	—
EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent	Multiple authors	cs.AI	2026-06-17	9	2606.17698	—
Dissecting Model Behavior through Agent Trajectories	Multiple authors	cs.AI	2026-06-17	9	2606.17454	—
Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery	Multiple authors	cs.AI	2026-06-17	8	2606.17519	—
Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation	Multiple authors	cs.AI	2026-06-17	8	2606.17459	—
Environment-Grounded Automated Prompt Optimization for LLM Game Agents	Multiple authors	cs.AI	2026-06-17	8	2606.17838	—
MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation	Ye Jin, Yangyang Xu, Jun Zhu, Yibo Yang	cs.CL	2026-06-17	8	2606.17162	—
MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents	Multiple authors	cs.AI	2026-06-17	8	2606.17453	—
Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning	Multiple authors	cs.AI	2026-06-17	8	2606.17591	—
StepGuard: Guarding Web Navigation via Single-Step Calibration	Multiple authors	cs.AI	2026-06-17	8	2606.17871	—
FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness	Multiple authors	cs.AI	2026-06-17	8	2606.17642	—
Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns	Multiple authors	cs.AI	2026-06-17	8	2606.17645	—
Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow	Multiple authors	cs.AI	2026-06-17	7	2606.17577	—
DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL	Multiple authors	cs.AI	2026-06-17	7	2606.17821	—
LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline	Multiple authors	cs.AI	2026-06-17	7	2606.17507	—
AIPatient Arena: EHR-grounded evaluation of LLMs in clinical consultation workflows	Multiple authors	cs.AI	2026-06-17	7	2606.17474	—
From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities	Mohammadsadegh Abolhasani et al.	cs.CL	2026-06-17	7	2606.17174	—
LecturaAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning	Multiple authors	cs.CL	2026-06-15	7	2606.16428	链接
DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack	Multiple authors	cs.AI	2026-06-17	7	2606.17574	—
FlowRAG: Synergizing Explicit Reasoning via Frequency-Aware Multi-Granularity Graph Flow	Multiple authors	cs.AI	2026-06-17	7	2606.17856	—
MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation	Multiple authors	cs.CL	2026-06-17	7	2606.17449	—
Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification	Multiple authors	cs.AI	2026-06-17	7	2606.17637	—
LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings	Multiple authors	cs.AI	2026-06-17	7	2606.17727	—
MemTrace: Probing What Final Accuracy Misses in Long-Term Memory	Multiple authors	cs.AI	2026-06-17	7	2606.17328	—
PromptMN: Pseudo Prompting Language	Enkhzol Dovdon	cs.CL	2026-06-17	6	2606.17164	—
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling	19 authors	cs.AI	2026-06-17	6	2606.18023	链接
Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients	NVIDIA	cs.AI	2026-06-17	6	2606.18216	链接
ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining	CUHK	cs.AI	2026-06-17	6	2606.17200	链接

历史快照

信息来源

ArXiv cs.AI RSS Feed — ArXiv, 2026-06-18
ArXiv cs.CL RSS Feed — ArXiv, 2026-06-18
HuggingFace Daily Papers — HuggingFace, 2026-06-17

ArXiv 智能体论文周报：自进化架构与分布式网络取得重大突破

AgentScout · 发布于 2026年6月18日 · 更新于 2026年6月18日 · 8 分钟阅读

#ai-agents #arxiv #research-papers #agent-benchmarks #self-evolving-agents

Analyzing Data Nodes...

SIG_CONF:CALCULATING

Verified Sources

数据概览

快照周期：2026-06-11 至 2026-06-18
追踪器：ArXiv AI Agent 论文追踪（查看所有快照：/tech/ai-agents/data/?tracker=arxiv-cs-ai-weekly）
更新频率：每周
主要来源：ArXiv cs.AI RSS、ArXiv cs.CL RSS、HuggingFace Daily Papers

关键事实

数量：共 35 篇论文，其中 28 篇为 Agent 相关（80%），6 篇为多 Agent 系统，3 篇为自进化 Agent
内容：引入 7 个新基准测试；Agent 相关论文平均趋势评分达 8.1（较上周 7.4 上升）
时间：2026 年 6 月 18 日当周
影响：OPD-Evolver、GameCraft-Bench 和分布式 Agent 网络成为高评分论文（趋势评分 10/10）

方法论

本周指标

指标	本周	上周	变化
论文总数	35	31	+4
Agent 相关	28	28	0
Agent 占比	80%	90%	-10pp
新基准测试	7	7	0
平均趋势评分（Agent）	8.1	7.4	+0.7
多 Agent 论文	6	4	+2
自进化 Agent	3	2	+1

本周高关注论文

标题	ArXiv ID	趋势评分	核心主题
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation	2606.17628	10	agent evolution, self-evolving agents, memory hierarchy
Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes	2606.17368	10	distributed agents, P2P networks, multi-agent systems
GameCraft-Bench: Can Agents Build Playable Games End-to-End?	2606.17861	10	game generation agents, coding benchmarks, creative agents
Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search	2606.17209	9	agentic search, multi-hop reasoning, query diversification
When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval	2606.17220	9	self-evolving agents, legal AI, rule evolution
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning	2606.17682	9	multi-agent reasoning, RL agents, environment design
SEAGym: An Evaluation Environment for Self-Evolving LLM Agents	2606.17546	9	self-evolving agents, agent evaluation, evolution tracking
EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks	2606.17698	9	shopping agents, long-horizon tasks, hidden intent
Dissecting Model Behavior through Agent Trajectories	2606.17454	9	trajectory analysis, agent behavior, harness design

显著基准测试

基准测试	ArXiv ID	领域	核心发现
GameCraft-Bench	2606.17861	游戏生成	首个端到端游戏生成基准测试（Godot 引擎）；前沿模型成功率仅 41.46%
EComAgentBench	2606.17698	电商	662 个购物任务，包含分布式隐藏意图；最佳模型准确率 57.1%
SEAGym	2606.17546	Agent 进化	追踪自进化 Agent 在训练/验证/测试/回放/成本各阶段的 Harness 更新
MapSatisfyBench	2606.17453	导航	评估感知满意度的地图 Agent，隐式决策因子来自真实用户数据
CEO-Bench	2606.17459	战略	多 Agent 高管模拟的战略资源重新分配；揭示单一顾问捕获失效模式
MemTrace	2606.17328	记忆	长期记忆基准测试，揭示证据使用瓶颈主导失败
LongWebBench	2606.17727	网页生成	490 个结构化 + 507 个功能性任务，面向长时程网页生成

🔺 独家情报：别处看不到的洞察

置信度: 高 | 新颖度评分: 62/100

虽然单篇论文在 HuggingFace 上获得关注，但本周 35 篇论文的集体信号揭示了三个结构性转变，这些是大多数报道所忽略的：

趋势与观察

自进化框架激增：本周三篇论文聚焦具有显式记忆层次的自进化 Agent，较上周两篇有所增加。相对 ReasoningBank 提升 11.5% 表明慢快协同进化架构正在成熟。
基准测试转向复杂真实任务：七个新基准测试针对多步推理、创意生成和隐藏意图发现——从单轮任务转向需要持续 Agent 推理的场景。
规模化轨迹分析：本周分析了 138k 条 Agent 轨迹，揭示模型特定的行为模式。这种定量的 Agent 行为分析方法正在成为标准评估工具。
Agent 记忆架构多样化：出现四种不同的记忆方法——层次化（MemSlides）、基于经验（FinAcumen）、长期（MemTrace）和进化追踪（SEAGym）。尚无共识架构；该领域正在探索多个设计方向。
长时程推理获得关注：多个基准测试（EComAgentBench、LongWebBench、GameCraft-Bench）专门针对需要 10 步以上的任务，表明该领域正从单轮转向持续推理。

周度对比总结

指标	本周	上周	变化
追踪论文数	35	31	+4
Agent 相关论文	28	28	0
Agent 占比	80%	90%	-10pp
平均趋势评分（Agent）	8.1	7.4	+0.7
多 Agent 论文	6	4	+2
自进化 Agent	3	2	+1
引入基准测试	7	7	0
趋势评分 ≥ 9	9 篇	4 篇	+5

完整论文列表

标题	作者	分类	发布日期	评分	ArXiv	HF
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation	NUS Research Team	cs.AI	2026-06-17	10	2606.17628	链接
Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes	Multiple authors	cs.AI	2026-06-17	10	2606.17368	—
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?	CUHKSZ	cs.AI	2026-06-17	10	2606.17861	链接
Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search	CMU Research Team	cs.AI	2026-06-17	9	2606.17209	—
When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval	Multiple authors	cs.AI	2026-06-17	9	2606.17220	—
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning	Multiple authors	cs.AI	2026-06-17	9	2606.17682	—
SEAGym: An Evaluation Environment for Self-Evolving LLM Agents	Multiple authors	cs.AI	2026-06-17	9	2606.17546	—
EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent	Multiple authors	cs.AI	2026-06-17	9	2606.17698	—
Dissecting Model Behavior through Agent Trajectories	Multiple authors	cs.AI	2026-06-17	9	2606.17454	—
Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery	Multiple authors	cs.AI	2026-06-17	8	2606.17519	—
Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation	Multiple authors	cs.AI	2026-06-17	8	2606.17459	—
Environment-Grounded Automated Prompt Optimization for LLM Game Agents	Multiple authors	cs.AI	2026-06-17	8	2606.17838	—
MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation	Ye Jin, Yangyang Xu, Jun Zhu, Yibo Yang	cs.CL	2026-06-17	8	2606.17162	—
MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents	Multiple authors	cs.AI	2026-06-17	8	2606.17453	—
Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning	Multiple authors	cs.AI	2026-06-17	8	2606.17591	—
StepGuard: Guarding Web Navigation via Single-Step Calibration	Multiple authors	cs.AI	2026-06-17	8	2606.17871	—
FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness	Multiple authors	cs.AI	2026-06-17	8	2606.17642	—
Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns	Multiple authors	cs.AI	2026-06-17	8	2606.17645	—
Surrogate Assisted Pedestrian Protection Design via a Foundation Model Orchestrated Workflow	Multiple authors	cs.AI	2026-06-17	7	2606.17577	—
DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL	Multiple authors	cs.AI	2026-06-17	7	2606.17821	—
LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline	Multiple authors	cs.AI	2026-06-17	7	2606.17507	—
AIPatient Arena: EHR-grounded evaluation of LLMs in clinical consultation workflows	Multiple authors	cs.AI	2026-06-17	7	2606.17474	—
From Parasocial Scripts to Dyadic Persistence in Autonomous AI-Agent Communities	Mohammadsadegh Abolhasani et al.	cs.CL	2026-06-17	7	2606.17174	—
LecturaAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning	Multiple authors	cs.CL	2026-06-15	7	2606.16428	链接
DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack	Multiple authors	cs.AI	2026-06-17	7	2606.17574	—
FlowRAG: Synergizing Explicit Reasoning via Frequency-Aware Multi-Granularity Graph Flow	Multiple authors	cs.AI	2026-06-17	7	2606.17856	—
MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation	Multiple authors	cs.CL	2026-06-17	7	2606.17449	—
Brick-DICL: Dynamic In-Context Learning for Automated Brick Schema Classification	Multiple authors	cs.AI	2026-06-17	7	2606.17637	—
LongWebBench: Evaluating Structural and Functional Webpage Generation in Long-Horizon Settings	Multiple authors	cs.AI	2026-06-17	7	2606.17727	—
MemTrace: Probing What Final Accuracy Misses in Long-Term Memory	Multiple authors	cs.AI	2026-06-17	7	2606.17328	—
PromptMN: Pseudo Prompting Language	Enkhzol Dovdon	cs.CL	2026-06-17	6	2606.17164	—
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling	19 authors	cs.AI	2026-06-17	6	2606.18023	链接
Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients	NVIDIA	cs.AI	2026-06-17	6	2606.18216	链接
ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining	CUHK	cs.AI	2026-06-17	6	2606.17200	链接

历史快照

信息来源

ArXiv cs.AI RSS Feed — ArXiv, 2026-06-18
ArXiv cs.CL RSS Feed — ArXiv, 2026-06-18
HuggingFace Daily Papers — HuggingFace, 2026-06-17

lyqlixwxlfcn5lwuw2t65g████w8k5q8qajop6ibbijcp4hfcw6k0rl3toh████ekfqacdihgjpxig0lh66e27tvup0rjv3░░░8070acqc0eqlre51rhtj59v25hxn24yab░░░gki5ryol0t8b44upsqqjfj2k2rmfujy97████3kfwqt1bjxwsul1r8lsn66qhc8lmmvay████cpqxntk5fvxr6xaqallxfke1g7ogqlfp████yy9i6fv55pofxrrczf9l3l7pzywpljvkc████3e6awbj85viynx76n9ao3bmtb06oo6kk9░░░1ch1smb1j34abzdlvlynm9af2141jv54░░░g37lhmug5opxqpd36l0kppprktwg46a5████lq0ymjh7948hx0zjlo37a3c69stxraz3░░░hyjkc7jub653covooonin7njo7ffg048████eosjsyyl1bhhd4pp2jx8yh4yywuchla69████hnzzl8at77nz5u70ew1celow6a06jp3s░░░hu3li55llpokkyw8akvl77fk6wy7pjg29░░░dzfdqzgapbjcuf3r1ol4ssd0j2nsvrc████k9pjejxmh9gwmlqqtzm0bnjw5rihddjf░░░gflhxs5v10dxsfs9032vsr48uuyetqhr░░░spifsuygjfc3r0thzp4t4gw5133pe0n1████rr842ejxoup5wtndc1w22aggkzikoycek████mp9quly69o28tb7hz6ksldq49ffh20ln░░░xadmunogs1hulvv264gx18peapi8x3qd████g7mbeb3rjmhos8c7h5stme60e031jduxc████ok5df24wane8syp5vbdytv3rmod1zkqua████oouojhxkmkb0dzmqyremczrpaf7ewoe6q████t3e96wdoirtehlbux9re8p4g9ec0amig░░░jlhkh662qlpg9r6t93b2j0k154lzq7xyp░░░h6pe2oatv3gz1b5e7efbuqlhn1efalif████0q29zs6lwdyyio0okbxi3p3bgjsr6lyag░░░0ioexjap37srch3dxpz748gxdnamgvcr8p████rlb89wv0l0rvqui40muc9rzj0g7xyqr████p850pcxasd4q0wcy2sqbs8oc6aeavpf████x9qzz0mlqor9qdf1qfcwmbswpzbwn7seq░░░jo8eb11o8vfwwr0zwjatdsz6qap6nk2s████tcp049vcu8kx11lstkgfncbtvelghgl2c████634m7k3d4bpdi2oudggvld53d24380kk░░░td5lo1dbppzqog7lfgrub0m8tmtv5r████ntpe0bm20cr6wgvgwmtc8cyc2udcuj████ncz7j237llimnzap79nogroahy0h6yrrs░░░mr8vq3t2vdpw0tfcxvzf49cz66wh505wc████ne5u3gwir0pi2kqb3s0jisub2k8kt3cpo████qlb6go532bm76ww48tmoid3c47p56w08y████qteudf48s1ow47w2ekduiouakvn4lv0f░░░sheh5giqhrh2kxx4twm3li8ft6av001████yyheikf32c53v1u2abqjfulvgueydl4░░░5g5faozw8cw7cxbuzbk6vs2q84kwg09bo░░░qjlrexqls1mf3gfpkr5o0uky7yiomrpt████3iicivyk02bjyiaa996kifqnl8ahi4ugi████m99rcem73weqwy0fsqr8v9yya66oshtl████a5hdr8ipbxs

大语言模型产品发布周度追踪报告 — 2026 年 6 月 16 日当周

Anthropic 发布 Fable 5 与 Mythos 5 后立即遭遇出口管制指令暂停访问，Google 宣布弃用 Imagen 4 和 Veo 模型，Anthropic 保密提交 S-1 文件预示即将启动 IPO 进程，本周共追踪到 11 条产品发布，其中 5 条高影响事件。

#llm #product-release #weekly-tracker #anthropic

情报综述 2026年6月15日

2026 年 AI 智能体市场变革：集成开发环境整合、资本集中与评估差距

2026 年 6 月三大结构性变革重塑市场：Windsurf 分拆表明 AI 集成开发环境寡头垄断形成，第一季度 67% 资本流向三家前沿实验室，CLEAR 框架填补 37% 实验室到生产差距，企业部署智能体需根本性调整策略，重新评估锁定风险与评估体系。

#ai-agents #market-structure #ide-consolidation #capital-concentration

数据监测 2026年6月15日

GitHub AI 智能体仓库星标周报：六月中旬生态数据分析

本周快照追踪152个AI Agent仓库的星标增长动态数据。santifer/career-ops项目以7.85%周增长率领跑生态系统，Python语言占比43%保持技术栈主导地位。数据涵盖星标超千级仓库、新增项目及语言分布趋势分析。

#ai-agents #github #open-source #stars-tracker

话题	论文数量	平均趋势评分	代表论文
自进化 Agent	3	9.3	OPD-Evolver, When Rules Learn, SEAGym
分布式 Agent	1	10.0	Distributed General-Purpose Agent Networks
多 Agent 系统	6	8.2	CEO-Bench, Trainee to Trainer, Parasocial Scripts
Agent 基准测试	7	7.9	GameCraft-Bench, EComAgentBench, SEAGym
Agent 记忆	4	7.5	MemSlides, FinAcumen, MemTrace
Agent 搜索	1	9.0	DivInit

话题	论文数量	平均趋势评分	代表论文
自进化 Agent	3	9.3	OPD-Evolver, When Rules Learn, SEAGym
分布式 Agent	1	10.0	Distributed General-Purpose Agent Networks
多 Agent 系统	6	8.2	CEO-Bench, Trainee to Trainer, Parasocial Scripts
Agent 基准测试	7	7.9	GameCraft-Bench, EComAgentBench, SEAGym
Agent 记忆	4	7.5	MemSlides, FinAcumen, MemTrace
Agent 搜索	1	9.0	DivInit

ArXiv 智能体论文周报：自进化架构与分布式网络取得重大突破

数据概览

关键事实

方法论

本周指标

本周高关注论文

显著基准测试

热门话题

🔺 独家情报：别处看不到的洞察

趋势与观察

周度对比总结

完整论文列表

历史快照

信息来源

相关情报

大语言模型产品发布周度追踪报告 — 2026 年 6 月 16 日当周

2026 年 AI 智能体市场变革：集成开发环境整合、资本集中与评估差距

GitHub AI 智能体仓库星标周报：六月中旬生态数据分析