成为 AI Agent 工程师的学习 Roadmap(2026)

写给和我一样、有一定 Python 基础与 DevOps 背景,希望转型 / 进阶为 AI Agent 工程师LLM Platform 工程师的人。
参考:roadmap.sh/ai-engineerroadmap.sh/ai-agents
本文不设硬性时间表,按”能力阶段”递进;每个阶段给出官方文档 / 论文 / 开源项目 / 视频 / 书籍 / Newsletter 六类资源,以及可落地的实战项目。

给 DevOps 背景同学的一句忠告:不要被铺天盖地的 LLMOps 名词唬住。你已有的 Kubernetes、CI/CD、IaC、可观测性、容量规划经验,在 LLM Infra 时代是稀缺品。真正缺的是上层的 模型直觉Agent 工程化范式——本 roadmap 就是补这两块。

本文按 2026 年此刻真正在生产里被使用的形态来组织内容:agent harness + memory layer + context engineering 是 Stage 3 的主语,框架(LangGraph / AutoGen 等)只在它们仍然合适的场景下出现。文末附一节 《Agent 工程化范式的演进史》,用来对照过去几年那些昙花一现或被降级的流派——你在网上看到 2023/2024 年的教程时,可以拿那一节对位。

0. 总览路线图

flowchart TD
    Start([Python + DevOps 基础]) --> S1[Stage 1<br/>LLM 应用基础]
    S1 --> S2[Stage 2<br/>RAG 与上下文工程]
    S2 --> S3[Stage 3<br/>Agent 工程化]
    S3 --> S4[Stage 4<br/>评测 / 可观测 / 安全]
    S3 --> S5[Stage 5<br/>模型微调 LoRA / RLHF]
    S4 --> S6[Stage 6<br/>LLM Platform / Infra]
    S5 --> S6
    S6 --> Goal([AI Agent 工程师 ✕ LLM Platform 工程师])

    classDef done fill:#9ad,stroke:#357,color:#000
    classDef todo fill:#fde,stroke:#b48,color:#000
    class Start done
    class Goal todo

两条主线交汇:

  • 应用主线:Stage 1 → 2 → 3 → 4,做出真正能上线的 Agent 产品。
  • 底层主线:Stage 5 → 6,理解模型本身 + 把 Agent 当成”分布式系统”来运维。

DevOps 背景的同学,建议 1→2→3→4 走完后,在 5、6 中根据兴趣二选一深入;想做 Platform 就重 6 轻 5,想做研究型应用就反之。


Stage 1 · LLM 应用基础(必经之路)

目标

  • 不再把 LLM 当黑魔法,能解释 token、context window、temperature、top-p、function calling、structured output、prompt caching 各是什么。
  • 熟练用 OpenAI / Anthropic / Google 三家原生 SDK,至少手写 3 个不依赖框架的小工具。
  • 知道 2026 年这一代主力模型的家底:Claude Opus 4.5/4.6、GPT-5.2 / 5.4-Codex、Gemini 3、DeepSeek-V3.x / R1、Kimi K2.5、GLM-5——以及它们各自的「性格」。

关键概念清单

  • Tokenization(BPE / tiktoken)、上下文窗口、KV Cache 直觉
  • Sampling 参数:temperature、top-p、top-k、logprobs
  • Tool Use / Function Calling / Structured Output(JSON Schema)
  • Prompt caching(Anthropic / OpenAI / Gemini 都已普及;是 Claude Code 等长链路 agent 能跑得起来的根本前提)
  • Streaming、SSE、async I/O
  • Reasoning / thinking models 与普通模型的取舍(Opus thinking、GPT-5 thinking、Gemini 3 Deep Think)
  • Cost & latency 的工程权衡

资源

  • 官方文档
  • 论文(精读,不要只看摘要)
    • Attention Is All You Need(2017)
    • Language Models are Few-Shot Learners(GPT-3, 2020)
    • Chain-of-Thought Prompting(2022)
  • 视频
  • 书籍
    • Hands-On Large Language Models(O’Reilly,Jay Alammar 著),适合系统补全图谱
  • Newsletter / 博客

实战项目

  1. CLI 翻译器 + 词典:纯 SDK,支持流式输出、自定义 system prompt、保存历史。
  2. Structured Extractor:给一段 Jira / Confluence 文本,用 function calling 抽出结构化字段,对比 Pydantic 校验失败率。
  3. 多家 LLM 路由器:写一个统一接口的 llm_call(provider, model, ...),输出 cost / latency 对比表(你 DevOps 的本能应该很喜欢这个)。

Stage 2 · RAG 与上下文工程

目标

  • 理解 RAG 不是”接个向量库”那么简单,而是 chunking → embedding → retrieval → reranking → prompt assembly 一整条流水线。
  • 能就业务数据做出可评测的 RAG,不只是 demo。

关键概念清单

  • Embedding 模型选型(OpenAI text-embedding-3、Voyage 3、Cohere Embed v4、bge-m3Qwen3-Embedding、Nomic v2)
  • 向量数据库:pgvector / Qdrant / Weaviate / LanceDB / Turbopuffer 的权衡
  • Chunking 策略:fixed / recursive / semantic / late chunking(2024 起的事实最佳实践)
  • Hybrid Search(BM25 + dense)、Reranker(Cohere Rerank 3、bge-reranker-v2、Voyage Rerank)
  • Query rewriting、HyDE、multi-query、ColBERT / ColPali(多向量与视觉 RAG)
  • Agentic RAG:把检索本身变成 agent 的 tool,而不是固定 pipeline(与 Stage 3 的 harness 衔接)
  • GraphRAG / LightRAG / HippoRAG:知识图谱辅助检索这条支线在 2025 已经站稳
  • 长上下文 vs RAG 的取舍(Gemini 3 / GPT-5.2 已把「百万 context + cache」做成默认选项,很多 RAG 场景被改写)

资源

  • 官方文档
  • 论文
    • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020,原始 RAG)
    • Lost in the Middle(2023)
    • Self-RAGCorrective RAG (CRAG)
  • 开源项目
    • ragatouille(ColBERT 实战)
    • r2r(production-grade RAG 参考实现)
  • 博客
    • Jason Liu 的 RAG 系列(jxnl.co),工程视角极强

实战项目

  1. 个人知识库 RAG:把你过去几年的博客 / 笔记灌进去,做一个能引用原文链接的问答。
  2. 代码库问答:选一个中等规模 repo(比如 vllm),实现 file-level + symbol-level 双层检索。
  3. RAG 评测台:用 Ragas 或自写 LLM-as-judge,对 chunk size、reranker 开关做 A/B,输出报表——这一步很多人跳过,但这是从”会调 API”到”工程师”的分水岭。

Stage 3 · Agent Harness、Memory Layer 与 Context Engineering(2026 年的核心)

这一阶段是整篇 roadmap 最重要、也是最容易过时的一节。关键词从 2024 年的「Agent 框架」变成了 2026 年的 「Agent harness」+「Memory Layer」+「Context Engineering」。下面会先讲清楚这三个名词,再列资源和项目。

3.1 什么是 Agent Harness?

2026 年大家在用、在卷、在赚钱的 Agent,几乎全都长成同一个样子:

一个 CLI / 桌面 app,包住一个模型,再包上 sandbox、文件工具、shell 工具、prompt cache、子 agent、todo list、skills、hooks、MCP client。

这一整层就叫 agent harness(也叫 agentic harnesscoding agent harness;Karpathy 给的新昵称是 「Claws」 🦞)。代表作:

类别 代表 出品方
终端/IDE 内 coding harness Claude CodeCodex CLI / Codex appCursorClineOpenCodeAider Anthropic / OpenAI / 社区
通用工作 harness(「Claude Code for everything」) Claude Cowork(前身 Claude Code 的非编码模式)、Codex app + Automations Anthropic / OpenAI
桌面/手机端 personal-assistant harness(「Claws」) OpenClaw、Moltbot、NanoClaw、PicoClaw、ZeroClaw Peter Steinberger 等
跨 harness 编排层 Hermes Agent Nous Research
开源、可部署 goose(Block,已捐给 AAIF)、OpenHands Block / All-Hands-AI

你应该把「会用 + 会读源码 + 会扩展」这些 harness 当成 2026 年 Agent 工程师的硬核能力,优先级高于任何一个 Python Agent 框架

harness 真正解决的工程问题(这也是面试时能聊出深度的点):

  • prompt caching 设计:Claude Code 的 Thariq Shihipar 公开说过,「我们整个 harness 围绕 prompt cache 命中率来设计,命中率掉了就当 SEV 报警」。你要理解为什么 system prompt 顺序、tool 描述顺序、todo list 都得是 cache 友好的。
  • context compaction / 截断策略:长会话怎么压缩、压缩时如何不丢初始指令(Summer Yue 那条 OpenClaw 翻车案例就是 compaction 把「don’t action」指令丢了)。
  • sandbox:Claude Cowork 用本地容器,Codex app 是 macOS app sandbox,Co-do 用 <iframe sandbox> + WebAssembly 把浏览器变成 sandbox。
  • sub-agent / spawn:主 agent 派 sub-agent 干「窄任务」,结果摘要回主 agent,主 agent 的 context 不被污染。
  • hooks / skills / commands:harness 可扩展性的三大支柱(详见 3.3)。

3.2 Memory Layer:从「塞 vector DB」到独立产品类别

2026 年的另一个分水岭是:memory 不再是 RAG 的一个章节,而是一个独立的中间件类别。代表产品和它们的取向:

产品 一句话定位 适用场景
Mem0 提取-存储-检索 三段式 SDK,最像「memory 中的 Redis」 通用对话 / personal assistant
Letta(前身 MemGPT) 把 OS 概念搬进 LLM:core memory + archival memory + 函数调用调度 长期人格化 agent
Zep 基于时序知识图谱(temporal graph)的 episodic memory,强在事实更新和时间推理 客服、CRM、需要「前后对照」的场景
LangMem LangChain 出的一套 memory primitives,紧贴 LangGraph 已经在 LangGraph 栈里
Cognee knowledge graph + ontology 路线 偏知识管理
Supermemory / Superlocalmemory 个人本地优先 indie hacker

社区已经有了正经的 benchmark:LoCoMo(Long Conversation Memory)、agentmarketcap 的 vendor landscape 报告等。

选型口诀(综合 2026 年几篇对比文章):

  • 要快上线、要 SaaS 兜底 → Mem0
  • 要长期人格、要「agent 自己改自己的 memory」 → Letta
  • 业务有大量「事实随时间变化」的场景(人事、库存、订单)→ Zep
  • 就想自己造,且团队懂图数据库 → Cognee 或自己在 pgvector + Postgres 上手撸

3.3 Context Engineering:取代 Prompt Engineering 的新词

2025 下半年到 2026 上半年,「prompt engineering」这个词基本被 「context engineering」 顶掉了。背后是几篇关键文章:

  • Matt Webb 的 《Context plumbing》 —— 把 agent 工程比作「把 context 从源端管道到 LLM 跟前」;
  • Armin Ronacher 的 《Agent design is still hard》 —— 提出 reinforcement 概念:每次 tool 返回时顺手把目标、todo 状态、背景变化「塞回去」提醒 agent,Claude Code 的 todo list 就是典型;
  • Karpathy 的 「agentic engineering」一词 + 后续的 「Claws」 命名。

这一节要掌握的具体技术:

  • AGENTS.md(OpenAI 主推,已捐给 AAIF):仓库根目录给 agent 看的「团队规则」
  • Skills(Anthropic 主推,已成 agentskills.io 开放标准;Cursor / Codex / OpenCode / Amp / goose / Letta / VS Code 全部支持):把「会做某件事的知识包」以目录 + SKILL.md 形式分发
  • MCP(Model Context Protocol):现在归 AAIF(Agentic AI Foundation) 治理,事实标准
  • prompt caching 友好的 system prompt 排版
  • reinforcement / 状态回灌
  • context compaction:何时压缩、压缩什么、保留什么
  • sub-agent 的 context 隔离

3.4 还要不要学 LangGraph / Pydantic AI?

要学,但降级

选型 我现在的看法
原生 SDK + 200 行 loop(Anthropic / OpenAI) 必修。2025 下半年开始,Armin Ronacher 等几乎所有重度 agent 实践者都明确说「短期内不上抽象,差异在 cache control / reinforcement / tool prompt,框架抽不走」。
LangGraph 仍是「需要状态机 + 持久化 + 分布式」场景下最成熟的,团队/平台向产品依然推荐。但不要把它当「agent 入门课」。
Pydantic AI 类型安全党友好;轻量项目可用。
AutoGen / CrewAI 主要在做「研究型多 agent 协作」演示项目时考虑。
OpenAI Agents SDK OpenAI 自家的轻量 agent 抽象,配合 Codex 生态用很顺。

3.5 资源

3.6 实战项目(按难度递增,全部带 2026 时态)

  1. 手写 ReAct Agent:< 300 行原生 SDK,3 个 tool(搜索 / 计算器 / 文件读写)。重点:把 prompt cache 命中率打印出来,看 cache 是怎么工作的。
  2. 给 Claude Code / Codex 写一套 Skills + AGENTS.md:把你团队的「提交规范、release 流程、内部库 API、常见排错」做成 skills,让 harness 在你 repo 里「开箱即用」。这是 2026 年最容易出影响力的一类项目。
  3. DevOps Copilot harness:fork goose 或 OpenHands,加入 kubectlterraform plan、Prometheus、PagerDuty 只读 tool,做一个集群诊断 agent。强烈建议加 OPA 风格的 policy 拦截层(safety first)。
  4. 写一个 MCP server:把你团队某个内部系统(Jira、Confluence、内部 K8s 控制面)包成 MCP server,配上 Claude Desktop / Cursor / Codex 连接说明。
  5. 接一层 Memory Layer:给上面 3 / 4 接入 Mem0 或 Letta,让 agent 跨 session 记住「上次这个 namespace 出过什么问题、谁在 oncall」。跑一遍 LoCoMo 风格自测。
  6. 用 Hermes(或自写一个简版)编排两个 harness:Codex 负责重的代码改写,Claude Code 负责审阅 + 解释,Hermes 维持共享 context。这是 2026 年最前沿的「meta-harness」范式。
  7. 复刻一个迷你 Claw:参考 NanoClaw(~4000 行)写一个跑在自己 Mac mini / Raspberry Pi 上、通过 Telegram / Signal 控制、能调度任务的私人 assistant harness。强烈建议禁掉所有 outbound 写操作,否则参考 OpenClaw 那次「speedrun 删邮件」教训。

Stage 4 · 评测、可观测、安全(容易被忽视的”后半场”)

目标

  • 让 Agent 可被回归测试可被观测可被治理。这一阶段最能把 DevOps 经验变现。

关键概念

  • Eval:offline(fixed dataset)/ online(A/B、影子流量)/ LLM-as-judge / 人工标注
  • Tracing:OpenTelemetry GenAI semantic conventions、span / generation 概念
  • Prompt Injection、jailbreak、PII 泄漏、数据投毒
  • Cost / token 限流、rate limit、fallback
  • 幻觉缓解:grounding、citation、constrained decoding

资源

实战项目

  1. 给 Stage 3 的 Agent 接入 Langfuse,建立 100 条 golden dataset,跑 nightly eval。
  2. 做一次红队:对自己的 Agent 实施 5 种 prompt injection,写复盘。
  3. 用 OpenTelemetry 把 LLM 调用接入你已有的 Grafana / Loki 栈。

Stage 5 · 模型微调(LoRA / RLHF / DPO)

你选了”要能动手做微调”,所以这一阶段必修。但请记住:90% 的业务问题用 prompt + RAG 就能解决,先穷尽前面的手段再来微调。

目标

  • 理解 pretraining / SFT / RLHF / DPO 的关系。
  • 能在单卡 / 多卡上跑通 LoRA / QLoRA 微调,并把模型部署起来。

关键概念

  • Transformer 架构细节、注意力变体(MHA / GQA / MLA)
  • PEFT 家族:LoRA、QLoRA、DoRA
  • 对齐:RLHF(PPO)、DPO、KTO、ORPO;GRPO 与 DeepSeek-R1 风格的 RL on verifiable rewards
  • RL Environments / Verifiable rewards(Karpathy 2025-11 强调这是 2026 年训练 agent 的「主战场」——可参考 Prime Intellect Environments Hub 等社区项目)
  • 数据集构建(最难的一步)、数据去重、合成数据
  • 训练框架:transformers + trl + peftaxolotlunslothverl
  • 推理优化:量化(GPTQ / AWQ / GGUF)、speculative decoding

资源

  • 课程
  • 论文 / 技术报告
    • LoRA(2021)、QLoRA(2023)
    • InstructGPT(RLHF 起点)、Direct Preference Optimization(DPO,2023)
    • DeepSeekMath(GRPO 起源)、DeepSeek-V3 / R1 Tech ReportsLlama 3Kimi K2 / K2.5GLM-5(2026 年开源派的几份必读)
    • Tülu 3(Allen AI 系统讲 SFT + DPO + RLVR pipeline)
  • 开源
  • 书籍
    • Build a Large Language Model (From Scratch),Sebastian Raschka

实战项目

  1. unsloth + 一张消费级 GPU(或 Colab / RunPod)QLoRA 微调一个 7B 模型,做一个风格化助手(比如模仿你博客的语气)。
  2. 用 DPO 调一次同一个模型,对比 SFT-only 的差异。
  3. vllm 把微调后的模型部署成 OpenAI-compatible API,接回你 Stage 3 的 Agent。

Stage 6 · LLM Platform / Infra(DevOps 同学的主场)

目标

  • 把 LLM / Agent 当成有状态、长尾延迟、GPU 绑定的服务来运营。
  • 给团队提供”自助式” LLM 能力(gateway、quota、audit、evals as a service)。

关键概念

  • 推理引擎:vLLMSGLang、TensorRT-LLM、TGI 的取舍(2026 年 vLLM 与 SGLang 双寡头)
  • KV Cache、PagedAttention、continuous batching、prefix cachingchunked prefill
  • Disaggregated serving:prefill / decode 分离(NVIDIA Dynamo、vLLM PD-disagg、Mooncake 思路)——2025-2026 大模型服务化最大的架构变化
  • Speculative decoding、EAGLE、MTP
  • 服务化:模型路由、smart routing(按 prompt 难度选模型)、KV-aware load balancing、autoscaling on GPU
  • Kubernetes 原生 LLM 栈llm-d(Red Hat / Google / IBM 主推)、KServe 的 LLM Runtime、KAITO、KubeRay
  • LLM Gateway:LiteLLMPortkeyHelicone、Cloudflare AI Gateway
  • GPU 调度:Device Plugin、MIG、DRA(Dynamic Resource Allocation,K8s 1.34+ GA)
  • 多租户配额、PII redaction、合规(EU AI Act 已 in force)
  • 数据飞轮:日志 → 标注 → 数据集 → SFT/DPO/RLVR → 上线

资源

  • 官方文档
  • 论文 / 工程文章
    • Efficient Memory Management for LLM Serving with PagedAttention(vLLM 论文)
    • FlashAttention 1/2/3
    • Character.AI、Anthropic、OpenAI 关于 inference infra 的工程博客
  • 开源
    • vllmsglang
    • llm-d —— 2025 才开源、Kubernetes-native 的分布式推理栈,DevOps 同学的甜区
    • NVIDIA Dynamo —— PD 分离 + smart router 参考实现
    • litellm —— 几乎是 LLM Gateway 事实标准
    • skypilot —— 多云 GPU 调度
  • Newsletter

实战项目

  1. 自建 LLM Gateway:基于 LiteLLM,加上你团队的 SSO、quota、Langfuse 上报,全套 Helm chart。
  2. vLLM / SGLang on K8s:单节点 → 多节点 TP / PP / EP,用 Prometheus 看 token/s、TTFT、TPOT、prefix cache hit。
  3. PD 分离实验:用 llm-d 或 Dynamo 把 prefill 与 decode 分到不同 GPU 池,测对长 context 工作负载的 TTFT / 吞吐改善。
  4. GPU Autoscaler PoC:基于队列深度 + KV cache 占用(而非 CPU)扩缩容,写一篇内部文档解释为什么传统 HPA 不适用。
  5. 完整数据飞轮:Stage 4 的 trace → 自动挑选低分对话 → 人工修订 → 周期性 SFT/DPO → A/B 上线。

一些”反 roadmap”的建议

  1. 不要按线性时间走完。Stage 1 → 3 跑通后,立刻找一个真实业务场景,从场景倒逼回去补 4、5、6。否则学完会忘。
  2. 写文档比写代码重要。Agent 时代,prompt 和 tool description 都是文档;产品决策、eval 报告都是文档。这是 senior 和 junior 的关键差。
  3. 追踪一个稳定的小社区就够。我个人订阅:Simon Willison、Lilian Weng、Latent Space、Anthropic Engineering、HuggingFace blog、Jason Liu。再多就是噪音。
  4. 优先动手,再看综述。看到一个新概念(比如 GraphRAG、Agentic RAG、AutoGen v2),先用半天写个最小可跑的版本,再回头看论文 / 文章,吸收效率高 10 倍。
  5. 小心框架陷阱。LangChain / LlamaIndex 的 API 还在剧烈迭代,理解概念比记 API 重要;任何时候都要能用 200 行原生 SDK 复现你的 Agent 核心逻辑。
  6. DevOps 经验不要丢。当所有人都在卷 prompt 时,懂 GPU、懂 K8s、懂可观测性的人才是稀缺品。把”我能让这个 Agent 7×24 稳定跑在生产”作为你的差异化标签。

配套书单(可选)

  • Hands-On Large Language Models — Jay Alammar & Maarten Grootendorst
  • Build a Large Language Model (From Scratch) — Sebastian Raschka
  • AI Engineering — Chip Huyen(2024,少有的体系化作品)
  • Designing Machine Learning Systems — Chip Huyen(虽然不是 LLM 专项,但 ML system 思维必备)
  • Prompt Engineering for LLMs — John Berryman & Albert Ziegler(O’Reilly)

附录:Agent 工程化范式的演进史(2022-2026)

这一节专门留给「考古」:你在 2026 年读到 2023 / 2024 年那些教程、博客、视频时,往往会困惑「为什么大家在认真讨论一个我从没听过的库」。下面是一份不算完全公允的「流派对照表」,方便你定位它们在今天的位置。

流派一:Prompt Toolbox(2022 末 – 2023 上)

  • 代表:原始 LangChain(ChainAgentExecutorload_tools)、LlamaIndex 早期
  • 核心叙事:「把 prompt 模板和工具调用串成 Chain」
  • 典型代码initialize_agent(tools, llm, agent="zero-shot-react-description")
  • 被淘汰原因:抽象层比业务层还重,调试地狱;模型一升级(function calling、JSON mode 普及)整套 abstraction 立刻冗余
  • 今天的位置:LangChain 自身已经几乎重写,老 API 仍在但不是任何人的首选

流派二:Multi-Agent 协作框架(2023 下 – 2024 上)

  • 代表:AutoGen(v0.2)、CrewAI、MetaGPT、ChatDev、CAMEL
  • 核心叙事:「让多个角色 agent 互相对话,模拟一个软件公司 / 研究所」
  • 典型代码:定义 Researcher / Coder / Critic 三个 role,让他们自己开会
  • 被降级原因:演示效果好、上线效果差;token 烧得吓人、出错时 root-cause 几乎不可能;2024 下半年 Anthropic 那篇 Building effective agents 给出了「绝大多数情况你需要的是 workflow 而不是多 agent」的明确判断
  • 今天的位置:AutoGen v0.4 重写为事件驱动后仍在;研究类项目和「让多个模型互相对照」的场景下还在用,不是默认范式

流派三:状态机派 / 图编排(2024)

  • 代表LangGraph、Burr、Inngest(agent 模式)
  • 核心叙事:「Agent 本质是一张有循环的状态图,把节点 / 边显式画出来更可控」
  • 当下定位仍然有效,是「需要持久化、HITL、长时运行、人工审批」场景的首选——尤其在企业内部平台向产品里。但不是 2026 的入门姿势,因为大部分一线开发者今天先接触的是 Claude Code / Codex 这样的 harness,而不是从零造一个 graph

流派四:类型安全派(2024 末 起)

  • 代表Pydantic AI、Instructor、Marvin
  • 核心叙事:「function calling 的输出是结构化的,那 agent 的所有边界都用 Pydantic 卡死」
  • 当下定位:仍是好选择,尤其当你的 agent 输出要进数据库、要被下游程序消费。它和 harness 不冲突——Claude Code 的内部其实就是大量结构化 schema

流派五:Coding Agent 范式(2024 中起爆 → 2026 主流)

  • 早期代表:smol-developer、GPT-Engineer、Devin(2024 春)、Aider、Cursor、Cline
  • 2025 工业化:Claude Code(2025-05 GA)、OpenAI Codex CLI / Codex app、OpenCode、goose(Block 开源)
  • 2026 泛化:「Coding Agent 是包装最完整的通用 agent,把它的 sandbox / shell / file 能力解开来就是任何工作的 agent」——Claude Code 改名 Cowork、Codex 上 Skills + Automations 都是这个判断的产物
  • 今天的位置主战场。Stage 3.1 整节讲的就是它

流派六:Personal Assistant Harness / 「Claws」(2025 末 – 2026 爆发)

  • 代表:OpenClaw(前身 Clawdbot → Moltbot)、NanoClaw、PicoClaw、ZeroClaw
  • 核心叙事:「把 coding agent harness 的能力下放到本地硬件 + IM(Telegram / Signal / WhatsApp)+ 定时任务,做一个真正属于个人的 24/7 助手」
  • 特征:通常运行在 Mac mini / Raspberry Pi,强调本地化与可审计;也是踩坑最多的一类(删邮件、刷 PR、autonomous 影响力操作等都在 2026 上半年集中爆发)
  • 今天的位置:仍处于 Wild West 阶段,正经场景需要严格的 outbound 限制

流派七:Meta-Harness / 跨编排(2026 萌芽)

  • 代表Hermes Agent(Nous Research)、社区里各种「orchestrator-of-orchestrators」实验
  • 核心叙事:「不同 harness(Claude Code、Codex、Cline)各有所长,让它们在共享 context 下分工」
  • 今天的位置:尚早,但是值得跟踪——你可以把它视作 2024 年 multi-agent 论调的「工程化重生」,不再是模型互相对话,而是 harness 互相调度

一张图总结

flowchart 
    A["2022 末<br/>Prompt Toolbox<br/>(LangChain v0.x)"] --> B["2023 下<br/>Multi-Agent 协作<br/>(AutoGen v0.2 / CrewAI)"]
    B --> C["2024 上<br/>状态机 / 图编排<br/>(LangGraph)"]
    C --> D["2024 末<br/>类型安全派<br/>(Pydantic AI / Instructor)"]
    D --> E["2025<br/>Coding Agent 工业化<br/>(Claude Code / Codex / goose)"]
    E --> F["2025 末<br/>Personal Assistant Harness<br/>(OpenClaw / Claws)"]
    F --> G["2026<br/>Meta-Harness<br/>(Hermes / 跨 harness 编排)"]

    classDef legacy fill:#eee,stroke:#999,color:#555
    classDef current fill:#9ad,stroke:#357,color:#000
    class A,B,C,D legacy
    class E,F,G current

如果你今天才入门,直接从 2025 这一行往下学就是最短路径;前面三行做「读懂老博客 + 不踩坑」用就够。


给我自己的下一步 TODO

  • 完成 Stage 3 的 MCP Server 项目,开源出来
  • 在博客里专门开一个 AI Engineering Notes 分类,记录每个 stage 的踩坑
  • 把现有 K8s 集群接入 vLLM + LiteLLM + Langfuse 的最小生产闭环
  • 用 unsloth 做一次”博客口吻”模型微调,作为 Stage 5 的毕业项目

路线图是死的,节奏是活的。Roadmap 的价值不在”必须按它走”,而在”任何时候迷茫了,知道自己缺哪一块”。共勉。


成为 AI Agent 工程师的学习 Roadmap(2026)
https://gou7ma7.github.io/2026/05/12/career/@2026_ai_learn_roadmap/
作者
Roy Lee
发布于
2026年5月12日
许可协议