Chapter 13

2024–2026 Agent Frontier

从 ReAct 之后,Agent 工程走到了哪里。 Context Engineering、Harness、Reasoning Models、SWE-Bench、MCP、 2026 Benchmark 六件套、Multi-Agent Framework 大洗牌、Agent RL、 Skills 标准化、Prompt Injection 攻防——这一章梳理 2024–2026 的关键工业与研究进展。

本章约 12,000 字 阅读 ~50 分钟 关键词:benchmark · multi-agent · agent RL · GRPO · skills 标准化 · injection 攻防

前 12 章我们已经把 Hermes 拆开看。这一章不绑 Hermes——我们走出代码,俯瞰整个 2024–2026 Agent 工程的版图。看完你能回答:今天的"最前沿 Agent 实践"是什么、 还有哪些没解决的难题、Hermes 在这张图里的位置。

13.12024 转折点:从 demo 到产品

2023 年是"AutoGPT 泡沫"时代。媒体说"agent 改变一切",实际只能跑 demo。 到了 2024 年,几件事让 Agent 真正"能用":

  1. OpenAI Function Calling 协议成熟,工具调用不再靠 prompt 解析。
  2. Anthropic Claude 3.5 Sonnet (2024.06) 让"长上下文 + 工具调用" 第一次真的可靠。Cursor 业务起飞主要靠它。
  3. Devin 立 flag (2024.03):Cognition 演示了"AI 软件工程师"概念。 虽然 Devin 1.0 实际表现一般(SWE-Bench Verified 45.8%),但市场被打开
  4. Anthropic Computer Use (2024.10):让 Agent 真的能看屏幕、动鼠标
  5. MCP 发布 (2024.11):工具接入标准化。
  6. Anthropic "Building Effective Agents" (2024.12):第一份被广泛接受的工程指南。

13.2Anthropic "Building Effective Agents" — 工程范式定形

Industry Guide
Building Effective Agents
Anthropic Engineering · 2024-12 · anthropic.com/research/building-effective-agents

Anthropic 这篇博客在业界影响超过任何论文。它和大公司、初创公司大量合作后总结的实用建议, 不是空谈架构。

它最大的贡献是把术语对齐。在它之前,"agent"什么意思人人不同。它的定义:

第 2 章我们已经讲过。它的实操建议总结成 3 条:

  1. 从最简单的开始。大多数任务一次 LLM 调用 + RAG 就够。
  2. 只在必要时升级到 agent。Agent 用延迟和 token 成本换灵活。
  3. 避免重抽象框架。LangChain 风格的 Agent/Chain/Memory 基类层叠让调试变难。直接写代码。
引文 "Frameworks make it easy to get started, but they often add layers of abstraction that can obscure the underlying prompts and responses, making them harder to debug."

——Anthropic 这句话直接导致 2025 年大量项目从 LangChain 迁出,转用更简单的脚手架。 Hermes 就是这个趋势的样本——它没有 LangChain 式的层叠抽象。

5 种 Workflow 模式

第 2 章列过,这里再扫一遍,配上业界对应实例:

模式典型实例
Prompt Chaining大多数 "用 GPT 翻译 + 总结" 的脚本
Routing客服分流、Slack bot 意图分类
Parallelization (Sectioning)把长文档切段并发总结
Parallelization (Voting)多模型投票降低单次失误
Orchestrator-WorkersClaude Code review 大 PR(拆给多个 sub-agent)
Evaluator-Optimizer代码生成跑 lint/test 反馈 + 改

13.3Context Engineering:取代 prompt engineering

Industry Concept
Effective Context Engineering for AI Agents
Anthropic Engineering · 2025-06 · anthropic.com/engineering/effective-context-engineering-for-ai-agents

2025 年中,Anthropic 一篇博客把"prompt engineering"这个词正式淘汰,提出 "context engineering"作为继任者。

核心论点:当 Agent 在循环里运行,单次 prompt 不再是最大变量—— context window 的管理才是

Context Engineering 三大杠杆:

① Compaction

把过长的对话历史压缩成总结,开新 context window 继续。

Compaction is the practice of taking a conversation nearing the context window limit, summarizing its contents, and reinitiating a new context window with the summary.
Anthropic, 2025-06

第 3 章和第 5 章我们看过 Hermes 的实现。这是"上限"问题的根本解。

② Just-In-Time Context

不要预先把所有可能用到的数据塞进 prompt,让 Agent 用工具按需取。 prompt 里只放"索引"(文件路径、文档 ID、目录列表),不放内容。

这正是 Claude Code、Cursor、Hermes 都干的事:

# 反模式:把所有代码塞进 prompt
system_prompt = "Here are all 50 files in the repo:\n[200KB of code]"

# JIT 模式:只放索引
system_prompt = "Repo has these files:\n- src/auth.py\n- src/db.py\n..."
               "Use read_file to view content."

③ Tool Result Clearing

用过的工具结果不必永远占着 context。Anthropic 在 2025 把它做成 API 一级功能: 你可以告诉 Anthropic API "把 message_id 之前的所有 tool result 清掉,只留 assistant 总结"。

client.messages.create(
    ...
    clear_tool_results_above="msg_abc",    # 把这条之前的 tool 结果清掉
)

Hermes 还没用上这个新 API(写作时是 2026.05,刚发布),但代码里已经有类似机制: 压缩时优先丢老的 tool result,保留 assistant 的文本总结。

13.4Harness Engineering:超越单一 context

Industry Practice
Effective Harnesses for Long-Running Agents
Anthropic Engineering · 2025-Q4

2025 年下半年 Anthropic 又推一个新关键词:harness(脚手架)。 意思:Agent 不是只有一个循环。复杂任务里,多个 Agent + 多个 context window 协作。 "harness"指的是外层那个把 Agent 们组织起来的代码

Anthropic 给出一个具体模式:"双 Agent harness":

  1. Initializer Agent:第一次跑时设置结构化环境 (建目录、装依赖、写 README 模板)。
  2. Coding Agent:每 session 接着上次进度增量推进。

关键洞察:"single agent + 长 context"无法支撑数小时的任务。 必须分 session、用 Compaction、用 Skills 把"状态"外化到文件系统而不是 context window。

Anthropic 用这种 harness + Puppeteer 让 Claude 能自动构建生产质量 web 应用

关键发现 Anthropic 测试:同一个底层模型 (Claude Opus 4.5),不同 harness 之间 SWE-Bench Verified 成绩相差 15+ 个百分点

这意味着:Agent 工程的价值不只是"调好 prompt"——你的 loop、工具集、 context 管理决定了模型实际能发挥多少潜力。

对应到 Hermes 的设计:

13.5Reasoning Models:把 CoT 内化

2024 年 9 月 OpenAI o1 发布——第一次让"模型自己想很久再说话"成为 API 协议级别的事。 此前 CoT 靠 prompt 引导,o1 之后它是模型本身的能力

关键时间线:

模型发布意义
OpenAI o1-preview2024.09第一个 production reasoning model
DeepSeek-R12025.01第一个开源 reasoning model;推理过程返回
OpenAI o32025.01o1 之后 5 个月的迭代,逻辑性更强
Anthropic Extended Thinking2025.02Claude 3.7+ 的 reasoning 模式,可配置 thinking_budget
Qwen Thinking2025Alibaba 开源版本
Claude Opus 4.5+2025-2026Reasoning + 高 SWE-Bench 分数

对 Agent 工程的影响

  1. Reasoning 不能直接 echo。各厂家协议不一:有的允许 strip 后再发,有的要求严格 echo back。Hermes 的 Provider Profile 处理这些差异(第 4、12 章)。
  2. Reasoning content 占 token 但不占用户心智——它在 provider 那边被 strip 掉再给下一轮。
  3. 对长程任务有上限提升:SWE-Bench Verified 上 reasoning 模型比纯对话模型高 5–10 pp。
  4. 但延迟和成本显著上升。Curator 这种"小后台任务"不该用 reasoning model—— 浪费钱。Hermes 默认 curator 用 Haiku,主对话用 Opus。
实践指南 Reasoning Model 适合:复杂代码任务、数学题、多步逻辑、长程规划。 适合:客服分流、简单总结、UI 描述。 最佳实践是多 model 路由——主对话用 reasoning,辅助 task 用普通 chat model。 这正是 Hermes 的 auxiliary client 设计的思路。

13.6SWE-Bench Verified:客观标尺

之前评估 Agent 的好坏靠主观——"Devin demo 看起来很厉害"。2024 年 8 月 OpenAI 推出 SWE-Bench Verified,给"代码 Agent"建立了客观标尺。

SWE-Bench Verified 是什么

500 个被人工核对过、确认真的可解的 GitHub issue。 每个 issue 有:

测试一个 Agent 的方法:把 repo + issue 给它,给它 N 个 token 预算,它生成 patch, 跑 test 看 pass。pass 率就是 SWE-Bench 分数。

2026 年初的成绩

系统底层模型SWE-Bench Verified
Claude Opus 4.5Anthropic 自家80.9%
Claude Opus 4.6 / 4.7Anthropic 自家80.8% / 80.0%+
GPT-5.2OpenAI 自家80.0%
Cursor (with Sonnet 4.6)Sonnet 4.665.7%
Devin 2.0Mixed45.8%

三个值得讨论的事实

事实 1:80% 看起来很高,但...

SWE-Bench Verified 是"被人工挑过的可解题"。真实生产里很多 bug 模糊、要域知识、 要跨 repo 上下文——SWE-Bench 测不到这些。 80% 是上限的乐观估计,不是日常工作水平。

事实 2:Harness vs 模型同等重要

Cursor 用 Sonnet 4.6 拿 65.7%。同时直接 Sonnet API 跑 SWE-Bench(用 SWE-Agent harness) 分数明显更低。同样的模型差~15 pp。这是因为 Cursor 有更好的 harness: it 知道怎么切 task、怎么 review、怎么 prompt cache。

事实 3:Devin 落后

2024 年初 Devin 发 demo 视频引发轰动,估值数十亿。2026 年 SWE-Bench Verified 才 45.8%—— 远低于 Cursor 和 Claude Code。原因不是模型不行(它用 GPT),而是 harness 设计选择 优化了 demo 表演而非真实 throughput。

营销陷阱 下次有团队说"我们做了一个能干一切的 AI 软件工程师",先问SWE-Bench Verified 分数。 没有就是没做。有但低就是没做好。Devin 是这个领域最贵的"demo vs reality"教训。

13.72026 Benchmark 6 件套

SWE-Bench Verified 只是其中一块。到 2026 年初,"评估 Agent"这件事已经成熟到 有一套约定俗成的 benchmark 组合。如果你做 Agent,知道这 6 个测的是不同维度—— 没有哪个能单独衡量"Agent 强不强"。

Industry Benchmarks
2026 Agent Benchmark Suite
aggregated · benchmarkingagents.com · METR · Sierra · OSWorld team

截至 2026 年 4 月,业界基本共识:6 个 benchmark 各测一个不同能力维度。 上榜模型在某些 benchmark 高分、其他低分是常态。 没有任何一个 benchmark 能单独决定"哪个 Agent 更好"

Benchmark测什么2026 SOTA主用场景
SWE-Bench Verified 真实 GitHub bug 修复 ~80% 代码 Agent 评估
τ²-Bench (Sierra) 多轮工具调用 + 政策遵守 ~60% 客服、企业 Agent
OSWorld 真实桌面 GUI 任务 ~35–40% Computer Use / Operator
GAIA 开放领域通用助手 ~70% 通用 reasoning + 工具
WebArena 多步浏览器任务 ~50% Web Agent
METR HCAST 能持续多长任务(Time Horizon) ~2 小时 长程任务能力

τ²-Bench:企业最关心的那个

Sierra 公司(前 Salesforce CEO 创办)推的 benchmark。模拟客服场景: 另一个 LLM 扮演用户,Agent 必须既完成任务、又遵守书面 policy("退款 ≤ 30 天才允许"等)。

测什么:

τ²-Bench 比 SWE-Bench更难。SWE-Bench 测的是"解题"——给定固定输入找答案; τ²-Bench 测的是"操作"——多轮交互且要符合规则。企业落地 Agent 时关心的就是这个。

OSWorld:最诚实的那个

OSWorld 让 Agent 在真实 Ubuntu 桌面里完成任务:"在 LibreOffice 里改一个文档的格式"、 "用 Chrome 找到某网站的隐藏菜单并点击"。准确率怎么算?看文件最终状态—— 你要么真的改了文件、要么没改。没法靠 prompt engineering "蒙混过关"。

2026.04 数据:SOTA ~35%。这是真实世界 GUI Agent 的天花板—— 离实用还有距离。Anthropic Computer Use、OpenAI Operator、Google Project Mariner 都在这上面竞争。

数据警告 benchmarkingagents.com 2026 分析指出: "Top scores cluster between 74–94% on easier suites, but those numbers are inflated by 5–15 points by contamination, scaffolding, and single-run reporting."

看 benchmark 分数务必注意:(1) 是否多次跑取平均;(2) 是否用了 oracle test selection; (3) 训练集污染。低 10 分看待官方数字基本不会出错。

METR HCAST:时间地平线

METR (Model Evaluation & Threat Research) 的 HCAST (Human-Compared Agent Skill Test) 不是 传统 benchmark——它测的是 "Agent 能持续多长时间不偏离"。 把任务按"人类专家做完需要多少时间"分级,看 Agent 在每个级别的成功率。

2026 早期数据:

METR 据此预测 "Agent 能做的任务时长每 7 个月翻倍"。这是当前 AGI 路径 最被引用的实证趋势之一——比 benchmark 分数更说明问题。

13.8Multi-Agent Framework 大洗牌(2025–2026)

2023–2024 年 multi-agent framework 百花齐放:AutoGen、CrewAI、Swarm、LangGraph、 ag2、Agno……到 2026 年发生了显著洗牌。

Industry Update
Multi-agent Framework Shakeout 2025–2026
2026.04

OpenAI Swarm 在 2025.03 archive,官方推 Agents SDK; Microsoft AutoGen 在 2026 年初转 maintenance mode,被新的 Microsoft Agent Framework (MAF) 1.0 取代(2026.04 发布); LangGraph 仍是生产级首选;CrewAI 在 prototype 阶段流行 但生产里常被换成 LangGraph。

四种心智模型

这些 framework 看似都做"multi-agent",但底层抽象完全不同:

Framework核心抽象适合
LangGraph Graph:StateGraph + 节点 + 条件边 + checkpointer 复杂分支 / 可恢复工作流 / 生产级 observability
AutoGen / AG2 / MAF Actor:异步 message passing 对话型 multi-agent / 研究
CrewAI Role + Task + Process 快速 prototype / 业务流编排
OpenAI Agents SDK Handoff:delegation 本身是 primitive OpenAI 生态深度集成

Hermes 不属于上面任何一类

Hermes 是具体 Agent 产品,不是 framework。它内部用 orchestrator-workers 模式 (delegate_task 工具),但没暴露成"我是 multi-agent framework"。

这种"产品先于 framework"的路线是 Anthropic Building Effective Agents 文章里推崇的。 选 framework 时建议:

"少 framework,多代码"的拐点

2026 年业界一个明显趋势:从 framework 信仰回到 first-principles 代码。 原因:

Hermes 是这条路线的样本。它内部没用 LangGraph / AutoGen / 任何 framework, 全部是直接的 Python 循环 + dict + Provider profile。这本书前 12 章拆的就是这套代码。

13.9Agent RL:把工程经验"训"进模型

到 2026 年,"用 RL 把 Agent 行为训进模型"成为新的研究主线。这事 2025 年初由 DeepSeek-R1 引爆, 现在每家都在做。

Foundational Paper
DeepSeek-R1: Incentivizing Reasoning Capability via RL
DeepSeek · arXiv:2501.12948 · 2025.01

DeepSeek-R1 用 GRPO (Group Relative Policy Optimization)—— 一种简化版 PPO(去掉 critic)。配合 multi-stage 训练: cold-start SFT → reasoning-oriented RL → rejection sampling 生成新 SFT → 二次 RL。

意义:第一次不依赖大量人工标注就训出 reasoning 能力。GRPO 之后被 R2、Qwen Thinking、Kimi Reasoning 等大量采用,2026 成事实标准。

2026 主流 post-training 算法

算法来源核心思想
GRPODeepSeek用同组 rollout 平均当 baseline,去掉 critic 网络
DAPO各家改进解决 GRPO 在长 trace 上的梯度方差问题
RLVRVerifiable Reward RL奖励函数完全靠"对/错"验证(数学、代码)
RLAIFAnthropic用 AI 评价替代人类反馈

对 Agent 工程的影响

关键认知转变:很多"agent loop 里的工程技巧"以后会被训进模型

趋势 2024 时代的 agent 工程 = 写大量 prompt + harness 弥补模型不足。 2026 时代的趋势 = 模型自己变强(GRPO 训完更会用工具),harness 简化。 长期看,Hermes 这种"3589 行 conversation_loop"会变薄——很多边界条件以后 模型层面就处理掉了。不过短期 1–2 年内,harness 工程仍是高回报投入

13.10Agent Skills 标准化(2025.12+)

本书第 8 章把 SKILL.md 当作 Hermes 的内部约定来讲。但2025 年 12 月一个重大事件改写了这个定位

Industry Standard
Anthropic Agent Skills Specification
Anthropic · 2025.12 · github.com/anthropics/skills

Anthropic 在 2025 年 12 月把 SKILL.md 格式作为开放标准发布。 OpenAI 在两周内宣布 Codex CLI 和 ChatGPT 采用同样格式。

意义:你写一份 SKILL.md,Claude / ChatGPT / Codex / Cursor / Hermes 都能直接用。这是 MCP 之后第二个跨厂家 Agent 标准。

影响

  1. Hermes 的 SKILL.md 设计被"追认"。 本书 ch08 讲的 frontmatter、When to Use / NOT to Use、scripts/ 目录—— 这些原本是 Hermes 内部约定,现在变成跨工具标准。
  2. 商业模式出现skillsmp.comagensi.io 等 marketplace 允许付费 skill, 创作者拿 80%。"我的 git skill 在 Cursor / Claude / Hermes 都能用并收费"成为现实。
  3. Pre-built skills 出现。Anthropic 自己发布 PowerPoint / Excel / Word / PDF 处理 skill。 它们和你自己写的 skill 走同样机制——模型按需调用。
  4. Plugin marketplace 整合。Claude Code 的 /plugin 命令现在 既装 MCP server 也装 Skill 也装 plugin,三合一。

Skill 与 MCP 的分工

MCP ServerAgent Skill
形态外部进程(JSON-RPC)SKILL.md + scripts 文件
暴露Tools / Resources / Prompts决策手册 + 可选脚本
适合需要外部 API 调用、复杂状态纯 prompt 经验 + 简单脚本
例子GitHub MCP(调 GitHub API)commit-message 风格手册

简单理解:MCP = "接什么外部系统",Skill = "怎么用这些系统"。两者互补。

13.11Prompt Injection 攻防演进

2024 年的 prompt injection 防御靠 "请忽略恶意指令" 这种 prompt 教导。2025–2026 全面进入实证攻防时代

Benchmark
InjecAgent + AgentDojo
ACL Findings 2024 + arXiv:2406.13352 · 2024–2025

InjecAgent 测:让网页里的隐藏文字让 Agent 做坏事。 基线 ReAct + GPT-4:24% 被骗;加强攻击(attack-tuning):47% 被骗。 AgentDojo 现在被 US/UK AI Safety Institute 用做官方评估。

Defense Paper
Tool Firewall: Indirect Prompt Injections Defense
arXiv:2510.05244 · 2025.10

提出 双 firewall 模式

  • Tool-Input Firewall (Minimizer):在工具调用前,把 user query 中"和任务无关的额外指令"剥掉。
  • Tool-Output Firewall (Sanitizer):工具返回结果中"看起来像 prompt 的内容"包装成数据标记。

在 AgentDojo / Agent Security Bench / InjecAgent / τ-Bench 4 大 benchmark 上拿满分, 且不显著降低 utility。

Attack Paper
ChatInject: Abusing Chat Templates for Prompt Injection
ICLR 2026 · github.com/hwanchang00/ChatInject

新攻击向量:利用 chat template 的角色边界标记(如 <|im_start|>[INST])注入虚假 system message。 在 InjecAgent 上让强 model 防御率掉 50+ pp。

防御启示:所有外部内容必须先做 chat-template-escape。Hermes 的 _sanitize_tool_error(第 6 章)就是这种思路的早期实现。

Hermes 已经做到 / 还要补的

Hermes 当前的安全机制(第 7 章):

2026 年 Agent 安全的"做了 vs 没做"分水岭就在这两条。 你做生产 Agent 必须把它们补全。

13.12MCP — 工具的 USB-C

Industry Protocol
Model Context Protocol (MCP)
Anthropic · 2024-11 · modelcontextprotocol.io

一个开放标准,定义"AI 应用 (host) 怎么和外部数据/工具/系统 (server) 通信"。 Anthropic 11 月发布,2025–2026 大量被采用:OpenAI、Google DeepMind、Microsoft 都接入。已经是工具接入领域的事实标准

MCP 的三层架构

角色含义典型例子
Host用 LLM 的 AI 应用Claude Desktop, Cursor, Hermes
Clienthost 内部的协议库各家自实现
Server暴露 capabilities 的外部进程GitHub MCP Server, Slack MCP Server, 各种数据库 MCP

三种 capabilities

  1. Tools:可被 LLM 调用的函数(最常见)。schema 是 JSON Schema 子集。
  2. Resources:可读取的数据(文件、API 响应)。用 URI 寻址。
  3. Prompts:可参数化的 prompt 模板。

MCP 协议本身

基于 JSON-RPC 2.0。传输方式:

核心 RPC 方法:

# Host → Server
{"method": "initialize", ...}                # 握手 + capability 协商
{"method": "tools/list"}                    # 拿工具清单
{"method": "tools/call",
 "params": {"name": "foo", "arguments": {...}}}
{"method": "resources/list"}
{"method": "resources/read", "params": {"uri": "file://..."}}

# Server → Host(事件推送)
{"method": "notifications/tools/list_changed"}  # 工具变了请重读

生态状态(2026.05)

实战建议 你写一个工具,选 MCP server 而不是单一 host 集成。 一份代码,所有主流 host 都用。投入 / 受益比远比"只接 Claude Desktop"或"只接 Cursor"高。 本书第 14 章会带你写一个最简 MCP server。

2025 年 MCP 的演进

Anthropic 在 2025 年中发了 "Code Execution with MCP"—— 把"代码执行"也搬到 MCP server 里,让 Agent 写代码直接调 MCP server 的 sandbox 执行。 比每次让 Agent 写 inline code 安全得多。

13.13Anthropic Computer Use 与多模态 Agent

2024 年 10 月 Anthropic 让 Claude 3.5 Sonnet 公测 computer use。 能直接看屏幕截图、动鼠标、敲键盘。从此"Agent 真的能干 GUI 任务"从 demo 变成 API。

对工程的启示:

未解决的难题:

13.14研究脉络回顾:Voyager → 现代 Skill 范式

从 Voyager 到 2026 年,Skill / Memory 研究的关键论文:

论文 / 工作时间核心贡献
ReAct2022.10thought-action-observation 循环
Generative Agents2023.04Memory stream + reflection
ToolFormer2023.02Self-supervised tool use 训练
Reflexion2023.03Self-critique + retry
Voyager2023.05Skill library + 自动课程
Tree of Thoughts2023.05显式搜索树推理
AutoGPT/BabyAGI 等2023.03-05把概念变成 product (但功能弱)
MemGPT2023.10类 OS 的分层 memory
SWE-Agent2024.04第一份 SWE-Bench 严肃尝试
Anthropic Computer Use2024.10多模态 Agent 普及
MCP2024.11工具接入标准化
Anthropic Building Effective Agents2024.12工程范式定形
OpenAI o1 / DeepSeek-R12024.09 / 2025.01Reasoning models
Anthropic Context Engineering 系列2025Compaction + JIT + tool clearing
Anthropic Harness Engineering2025多 Agent + 多 context window 协作
Hermes Agent2025-2026把以上全部组装进开源 framework

13.152026 还在解决什么

哪些问题仍未解决

① 长程任务的 Cost Control

一个真实 SWE-Bench 任务跑下来可能花 $5–$20 token 钱。Anthropic Computer Use 一个 GUI 任务可能 $30+。怎么做到一次任务 1 美分以下仍是开放问题。 Auxiliary 模型路由(让简单步骤用便宜模型)是一条路,但需要更智能的 routing。

② Memory 的 "Catastrophic Inconsistency"

Agent 跑了三个月,memory 里积累了几百条事实。其中一些过时了 ("用户喜欢 Python 2"——他现在用 3)。怎么知道哪些 fact 应该 forget? Curator 是一个方向,但目前的实现是规则化的。更智能的"记忆衰减"需要研究。

③ Trustworthy Multi-Agent Coordination

你让 5 个 sub-agent 并发工作,怎么保证它们的结果一致、不矛盾? Hermes 用 Kanban 加排他锁,但这只是机械协调。语义层面的协调 ("两个 sub-agent 在改同一文件不同地方怎么 merge")仍开放。

④ Agent 评估的 Tail Cases

SWE-Bench 80% 是平均。但生产里的 bug 分布是长尾—— 20% 的 bug 占 80% 的工时。这些 "hard cases" 上 Agent 表现远低于平均。 怎么 benchmark 这种长尾,还没有好方法。

⑤ Privacy & Local-First Agent

现有强 Agent 几乎都依赖 cloud LLM API。 但 enterprise / 个人都希望"我的数据不离开机器"。 本地 70B 开源模型在 SWE-Bench Verified 上目前 ~30%——和云端 80% 差距大。 缩小这个差距是 2026 年开源社区主要方向。

⑥ Agent 的可解释性 / 审计

Agent 跑了 50 步、调了 20 个工具、得出一个结论——它为什么这么做? Reasoning content 字段是一部分答案,但不够。生产环境需要可审计的"决策树"。

⑦ GUI Agent 的实用化天花板

OSWorld 2026 年 SOTA 仍在 35–40%。这意味着对真实桌面的"会用"率不到一半。 Computer Use / Operator / Mariner 都还在"demo 漂亮、生产无法依赖"阶段。 问题不只是模型——动作精度(点中按钮)、状态识别(弹窗 vs 主窗)、错误恢复 (误操作怎么回滚)都需要新解法。

⑧ Agent 经济性的两极分化

按 2026 年 5 月数据:一个 SWE-Bench Verified 任务跑下来用 Claude Opus 4.7 约 $0.50–$3.00; 用 Sonnet 4.6 + 好 harness 约 $0.10–$0.50;用 GPT-5.2 约 $0.30–$2.00。 企业部署成本因此差几十倍。 "用便宜模型 + 好 harness 接近大模型"是当前最有商业价值的研究方向, 也是 Cursor / Cognition 等公司的核心 moat。

⑨ Long-Horizon Reliability

METR HCAST 数据显示 Agent 在 4 小时任务上成功率只有 20%。 现实里"做完一个 feature"对人类是 1–3 天的事。Agent 走完一天不偏离仍是开放问题。 Anthropic Harness Engineering 是当前最深入的尝试,但还没有谁敢声称 "把 Agent 扔在 VPS 上跑一周不监督"。

⑩ Prompt Injection 的"军备竞赛"

Tool Firewall(13.11)在 benchmark 上拿满分,但 ChatInject (ICLR 2026) 立刻找到新攻击面。 这是典型的攻防军备竞赛——不存在"一劳永逸"防御。生产 Agent 必须 接受"被骗一定会发生",然后用 capability limitation 兜底(第 7 章核心论点)。

13.16Hermes 在哪

把 Hermes 标在这张地图上:

flowchart LR
  T1["2024.12
Building Effective Agents
━━━━━━━━━
5 workflow 模式
augmented LLM
少抽象多代码"]:::milestone T2["2025.06
Context Engineering
━━━━━━━━━
Compaction
JIT context
Tool result clearing"]:::milestone T3["2025.Q4
Harness Engineering
━━━━━━━━━
双 Agent
多 context window
文件系统状态外化"]:::milestone T4["2026.05
Hermes 0.14
━━━━━━━━━
集成以上所有
30 providers · MCP host
Skill + Memory + Curator
20+ 平台"]:::hermes T1 --> T2 --> T3 --> T4 T4 -.->|"开源样本"| Conclusion["'工程化共识'
的集大成"]:::concl classDef milestone fill:#fbfaf6,stroke:#8b1538,color:#8b1538 classDef hermes fill:#ecf3eb,stroke:#2f5d3a,color:#2f5d3a,font-weight:bold classDef concl fill:#f0eaf1,stroke:#6b4488,color:#6b4488

把 Hermes 的设计决策对照"这是哪个前沿想法":

Hermes 设计对应前沿
三层 system promptContext Engineering: cache 友好
Skill 作为 user message 注入Context Engineering: 避免破 cache
SKILL.md 文件系统Harness: 状态外化到 filesystem
delegate_taskOrchestrator-Workers pattern
CuratorVoyager iterative refinement 的 batched 版
Memory + FTS5MemGPT archival memory + Generative Agents memory stream
MCP host2024 标准化协议
30 个 ProviderProfileOpenAI-compat 事实标准
Plugin Hook 体系"少抽象多代码" + 扩展点

结论:Hermes 不是 cutting-edge 研究项目,但它把所有 cutting-edge 工程实践都整合进了一个能跑的开源 framework。 这就是为什么本书拿它当 textbook——你看一份代码,学完整个 2024–2026 的工程沉淀。

13.17本章带走的

章末练习

  1. Easy 你读完了 Anthropic "Building Effective Agents"(如果还没读,看这里)。 用三句话总结你最受启发的点。
  2. Easy Context Engineering 三招里,你的工作场景最需要哪一招?为什么?
  3. Medium "同模型不同 harness 差 15 pp"——给你一个本地 70B 模型,分数 25%。 不能换模型,只能改 harness。你会改哪三件事?理由各 100 字。
  4. Medium MCP 协议是 JSON-RPC 2.0。实现一个最简 stdio MCP server,暴露一个工具 add 接受 a/b 返回和。 只用 Python stdlib,不超过 80 行。
  5. Hard Curator 解决了 skill 库的腐烂。Memory 也会腐烂——半年前的 fact 现在错。 读 Generative Agents 的"reflection"机制(arXiv:2304.03442 第 4 节), 设计一个"Memory Curator",把它的 reflection 思想和 Hermes 的状态机思想结合。
  6. Hard Anthropic 推 MCP 让工具标准化,但Agent 之间还没标准化协议。 想象一个 "A2A (Agent-to-Agent) Protocol"——让一个 Agent 把任务派给另一个 Agent。 写 200 字提案,回答:消息格式、subagent context isolation、predicate of completion、错误回传。