成为 AI Agent 工程师的学习 Roadmap(2026)
写给和我一样、有一定 Python 基础与 DevOps 背景,希望转型 / 进阶为 AI Agent 工程师或 LLM Platform 工程师的人。
参考:roadmap.sh/ai-engineer、roadmap.sh/ai-agents。
本文不设硬性时间表,按”能力阶段”递进;每个阶段给出官方文档 / 论文 / 开源项目 / 视频 / 书籍 / Newsletter 六类资源,以及可落地的实战项目。
给 DevOps 背景同学的一句忠告:不要被铺天盖地的 LLMOps 名词唬住。你已有的 Kubernetes、CI/CD、IaC、可观测性、容量规划经验,在 LLM Infra 时代是稀缺品。真正缺的是上层的 模型直觉 和 Agent 工程化范式——本 roadmap 就是补这两块。
本文按 2026 年此刻真正在生产里被使用的形态来组织内容:agent harness + memory layer + context engineering 是 Stage 3 的主语,框架(LangGraph / AutoGen 等)只在它们仍然合适的场景下出现。文末附一节 《Agent 工程化范式的演进史》,用来对照过去几年那些昙花一现或被降级的流派——你在网上看到 2023/2024 年的教程时,可以拿那一节对位。
0. 总览路线图
flowchart TD
Start([Python + DevOps 基础]) --> S1[Stage 1<br/>LLM 应用基础]
S1 --> S2[Stage 2<br/>RAG 与上下文工程]
S2 --> S3[Stage 3<br/>Agent 工程化]
S3 --> S4[Stage 4<br/>评测 / 可观测 / 安全]
S3 --> S5[Stage 5<br/>模型微调 LoRA / RLHF]
S4 --> S6[Stage 6<br/>LLM Platform / Infra]
S5 --> S6
S6 --> Goal([AI Agent 工程师 ✕ LLM Platform 工程师])
classDef done fill:#9ad,stroke:#357,color:#000
classDef todo fill:#fde,stroke:#b48,color:#000
class Start done
class Goal todo
两条主线交汇:
- 应用主线:Stage 1 → 2 → 3 → 4,做出真正能上线的 Agent 产品。
- 底层主线:Stage 5 → 6,理解模型本身 + 把 Agent 当成”分布式系统”来运维。
DevOps 背景的同学,建议 1→2→3→4 走完后,在 5、6 中根据兴趣二选一深入;想做 Platform 就重 6 轻 5,想做研究型应用就反之。
Stage 1 · LLM 应用基础(必经之路)
目标
- 不再把 LLM 当黑魔法,能解释 token、context window、temperature、top-p、function calling、structured output、prompt caching 各是什么。
- 熟练用 OpenAI / Anthropic / Google 三家原生 SDK,至少手写 3 个不依赖框架的小工具。
- 知道 2026 年这一代主力模型的家底:Claude Opus 4.5/4.6、GPT-5.2 / 5.4-Codex、Gemini 3、DeepSeek-V3.x / R1、Kimi K2.5、GLM-5——以及它们各自的「性格」。
关键概念清单
- Tokenization(BPE / tiktoken)、上下文窗口、KV Cache 直觉
- Sampling 参数:temperature、top-p、top-k、logprobs
- Tool Use / Function Calling / Structured Output(JSON Schema)
- Prompt caching(Anthropic / OpenAI / Gemini 都已普及;是 Claude Code 等长链路 agent 能跑得起来的根本前提)
- Streaming、SSE、async I/O
- Reasoning / thinking models 与普通模型的取舍(Opus thinking、GPT-5 thinking、Gemini 3 Deep Think)
- Cost & latency 的工程权衡
资源
- 官方文档
- Anthropic API Docs —— 当前 Agent 文档质量最高的一家
- OpenAI Cookbook
- Google Gemini API
- 论文(精读,不要只看摘要)
- Attention Is All You Need(2017)
- Language Models are Few-Shot Learners(GPT-3, 2020)
- Chain-of-Thought Prompting(2022)
- 视频
- Andrej Karpathy 《Intro to LLMs》 + 《Let’s build GPT》系列
- 书籍
- Hands-On Large Language Models(O’Reilly,Jay Alammar 著),适合系统补全图谱
- Newsletter / 博客
- Simon Willison’s Weblog —— 实操向,每天看一眼不会错
- Lilian Weng’s Blog —— 综述写得最清楚的人之一
实战项目
- CLI 翻译器 + 词典:纯 SDK,支持流式输出、自定义 system prompt、保存历史。
- Structured Extractor:给一段 Jira / Confluence 文本,用 function calling 抽出结构化字段,对比 Pydantic 校验失败率。
- 多家 LLM 路由器:写一个统一接口的
llm_call(provider, model, ...),输出 cost / latency 对比表(你 DevOps 的本能应该很喜欢这个)。
Stage 2 · RAG 与上下文工程
目标
- 理解 RAG 不是”接个向量库”那么简单,而是 chunking → embedding → retrieval → reranking → prompt assembly 一整条流水线。
- 能就业务数据做出可评测的 RAG,不只是 demo。
关键概念清单
- Embedding 模型选型(OpenAI
text-embedding-3、Voyage 3、Cohere Embed v4、bge-m3、Qwen3-Embedding、Nomic v2) - 向量数据库:pgvector / Qdrant / Weaviate / LanceDB / Turbopuffer 的权衡
- Chunking 策略:fixed / recursive / semantic / late chunking(2024 起的事实最佳实践)
- Hybrid Search(BM25 + dense)、Reranker(Cohere Rerank 3、
bge-reranker-v2、Voyage Rerank) - Query rewriting、HyDE、multi-query、ColBERT / ColPali(多向量与视觉 RAG)
- Agentic RAG:把检索本身变成 agent 的 tool,而不是固定 pipeline(与 Stage 3 的 harness 衔接)
- GraphRAG / LightRAG / HippoRAG:知识图谱辅助检索这条支线在 2025 已经站稳
- 长上下文 vs RAG 的取舍(Gemini 3 / GPT-5.2 已把「百万 context + cache」做成默认选项,很多 RAG 场景被改写)
资源
- 官方文档
- LlamaIndex Docs —— RAG 概念解释最系统
- pgvector —— DevOps 同学请优先选 Postgres 方案
- 论文
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020,原始 RAG)
- Lost in the Middle(2023)
- Self-RAG、Corrective RAG (CRAG)
- 开源项目
ragatouille(ColBERT 实战)r2r(production-grade RAG 参考实现)
- 博客
- Jason Liu 的 RAG 系列(jxnl.co),工程视角极强
实战项目
- 个人知识库 RAG:把你过去几年的博客 / 笔记灌进去,做一个能引用原文链接的问答。
- 代码库问答:选一个中等规模 repo(比如
vllm),实现 file-level + symbol-level 双层检索。 - RAG 评测台:用 Ragas 或自写 LLM-as-judge,对 chunk size、reranker 开关做 A/B,输出报表——这一步很多人跳过,但这是从”会调 API”到”工程师”的分水岭。
Stage 3 · Agent Harness、Memory Layer 与 Context Engineering(2026 年的核心)
这一阶段是整篇 roadmap 最重要、也是最容易过时的一节。关键词从 2024 年的「Agent 框架」变成了 2026 年的 「Agent harness」+「Memory Layer」+「Context Engineering」。下面会先讲清楚这三个名词,再列资源和项目。
3.1 什么是 Agent Harness?
2026 年大家在用、在卷、在赚钱的 Agent,几乎全都长成同一个样子:
一个 CLI / 桌面 app,包住一个模型,再包上 sandbox、文件工具、shell 工具、prompt cache、子 agent、todo list、skills、hooks、MCP client。
这一整层就叫 agent harness(也叫 agentic harness、coding agent harness;Karpathy 给的新昵称是 「Claws」 🦞)。代表作:
| 类别 | 代表 | 出品方 |
|---|---|---|
| 终端/IDE 内 coding harness | Claude Code、Codex CLI / Codex app、Cursor、Cline、OpenCode、Aider | Anthropic / OpenAI / 社区 |
| 通用工作 harness(「Claude Code for everything」) | Claude Cowork(前身 Claude Code 的非编码模式)、Codex app + Automations | Anthropic / OpenAI |
| 桌面/手机端 personal-assistant harness(「Claws」) | OpenClaw、Moltbot、NanoClaw、PicoClaw、ZeroClaw | Peter Steinberger 等 |
| 跨 harness 编排层 | Hermes Agent | Nous Research |
| 开源、可部署 | goose(Block,已捐给 AAIF)、OpenHands | Block / All-Hands-AI |
你应该把「会用 + 会读源码 + 会扩展」这些 harness 当成 2026 年 Agent 工程师的硬核能力,优先级高于任何一个 Python Agent 框架。
harness 真正解决的工程问题(这也是面试时能聊出深度的点):
- prompt caching 设计:Claude Code 的 Thariq Shihipar 公开说过,「我们整个 harness 围绕 prompt cache 命中率来设计,命中率掉了就当 SEV 报警」。你要理解为什么 system prompt 顺序、tool 描述顺序、todo list 都得是 cache 友好的。
- context compaction / 截断策略:长会话怎么压缩、压缩时如何不丢初始指令(Summer Yue 那条 OpenClaw 翻车案例就是 compaction 把「don’t action」指令丢了)。
- sandbox:Claude Cowork 用本地容器,Codex app 是 macOS app sandbox,Co-do 用
<iframe sandbox>+ WebAssembly 把浏览器变成 sandbox。 - sub-agent / spawn:主 agent 派 sub-agent 干「窄任务」,结果摘要回主 agent,主 agent 的 context 不被污染。
- hooks / skills / commands:harness 可扩展性的三大支柱(详见 3.3)。
3.2 Memory Layer:从「塞 vector DB」到独立产品类别
2026 年的另一个分水岭是:memory 不再是 RAG 的一个章节,而是一个独立的中间件类别。代表产品和它们的取向:
| 产品 | 一句话定位 | 适用场景 |
|---|---|---|
| Mem0 | 提取-存储-检索 三段式 SDK,最像「memory 中的 Redis」 | 通用对话 / personal assistant |
| Letta(前身 MemGPT) | 把 OS 概念搬进 LLM:core memory + archival memory + 函数调用调度 | 长期人格化 agent |
| Zep | 基于时序知识图谱(temporal graph)的 episodic memory,强在事实更新和时间推理 | 客服、CRM、需要「前后对照」的场景 |
| LangMem | LangChain 出的一套 memory primitives,紧贴 LangGraph | 已经在 LangGraph 栈里 |
| Cognee | knowledge graph + ontology 路线 | 偏知识管理 |
| Supermemory / Superlocalmemory | 个人本地优先 | indie hacker |
社区已经有了正经的 benchmark:LoCoMo(Long Conversation Memory)、agentmarketcap 的 vendor landscape 报告等。
选型口诀(综合 2026 年几篇对比文章):
- 要快上线、要 SaaS 兜底 → Mem0
- 要长期人格、要「agent 自己改自己的 memory」 → Letta
- 业务有大量「事实随时间变化」的场景(人事、库存、订单)→ Zep
- 就想自己造,且团队懂图数据库 → Cognee 或自己在 pgvector + Postgres 上手撸
3.3 Context Engineering:取代 Prompt Engineering 的新词
2025 下半年到 2026 上半年,「prompt engineering」这个词基本被 「context engineering」 顶掉了。背后是几篇关键文章:
- Matt Webb 的 《Context plumbing》 —— 把 agent 工程比作「把 context 从源端管道到 LLM 跟前」;
- Armin Ronacher 的 《Agent design is still hard》 —— 提出 reinforcement 概念:每次 tool 返回时顺手把目标、todo 状态、背景变化「塞回去」提醒 agent,Claude Code 的 todo list 就是典型;
- Karpathy 的 「agentic engineering」一词 + 后续的 「Claws」 命名。
这一节要掌握的具体技术:
- AGENTS.md(OpenAI 主推,已捐给 AAIF):仓库根目录给 agent 看的「团队规则」
- Skills(Anthropic 主推,已成 agentskills.io 开放标准;Cursor / Codex / OpenCode / Amp / goose / Letta / VS Code 全部支持):把「会做某件事的知识包」以目录 +
SKILL.md形式分发 - MCP(Model Context Protocol):现在归 AAIF(Agentic AI Foundation) 治理,事实标准
- prompt caching 友好的 system prompt 排版
- reinforcement / 状态回灌
- context compaction:何时压缩、压缩什么、保留什么
- sub-agent 的 context 隔离
3.4 还要不要学 LangGraph / Pydantic AI?
要学,但降级:
| 选型 | 我现在的看法 |
|---|---|
| 原生 SDK + 200 行 loop(Anthropic / OpenAI) | 必修。2025 下半年开始,Armin Ronacher 等几乎所有重度 agent 实践者都明确说「短期内不上抽象,差异在 cache control / reinforcement / tool prompt,框架抽不走」。 |
| LangGraph | 仍是「需要状态机 + 持久化 + 分布式」场景下最成熟的,团队/平台向产品依然推荐。但不要把它当「agent 入门课」。 |
| Pydantic AI | 类型安全党友好;轻量项目可用。 |
| AutoGen / CrewAI | 主要在做「研究型多 agent 协作」演示项目时考虑。 |
| OpenAI Agents SDK | OpenAI 自家的轻量 agent 抽象,配合 Codex 生态用很顺。 |
3.5 资源
- 必读文章 / 帖子
- Anthropic 《Building effective agents》 —— 仍是奠基
- Anthropic 《How we built our multi-agent research system》
- OpenAI 《A practical guide to building agents》
- Armin Ronacher 《Agent design is still hard》 + 《LLM APIs are a Synchronization Problem》
- Matt Webb 《Context plumbing》
- Thomas Ptacek 《You should write an agent》
- 《Inside the Agent Harness: How Codex and Claude Code Actually Work》(Medium,2026)
- Steve Yegge 《Software Survival 3.0》 ——「Desire Paths」/ 让 hallucination 成真
- 论文 / Benchmark
- ReAct(仍在)、Reflexion、Voyager
- SWE-bench / SWE-bench Verified、Terminal-Bench、GAIA、BrowseComp、LoCoMo(memory)
- vLLM 论文里的 prefix caching 章节(理解 cache 行为)
- 官方文档 / 标准
- Model Context Protocol、AAIF、Agent Skills 标准、AGENTS.md
- Claude Code docs、Codex docs、goose docs
- Memory layer:Mem0、Letta、Zep、LangMem
- 框架:LangGraph、Pydantic AI、OpenAI Agents SDK
- 开源项目(建议真的把源码读一遍,至少读 harness 主 loop)
OpenClaw—— 2026 年最火的个人 assistant harnessgoose—— 唯一一个进 AAIF 的开源 harnessOpenHands、Aider、OpenCodeCline—— VS Code 内 harnessbrowser-use—— browser agentEverything-Claude-Code—— 一份维护得很认真的 skills + hooks + commands 集合
- 视频 / 课程
- DeepLearning.AI AI Agents in LangGraph、Long-Term Agentic Memory With LangGraph
- Anthropic 官方 Claude Code workshop / cookbook
- 各家 harness 维护者在 YouTube 的实战直播(搜「claude code workflow」、「codex skills」、「hermes agent」)
- 博客 / Newsletter
- Simon Willison 的 ai-agents / coding-agents tag —— 2026 年这条战线最稳定的实时观察站
- Latent Space、Lilian Weng、Jason Liu
3.6 实战项目(按难度递增,全部带 2026 时态)
- 手写 ReAct Agent:< 300 行原生 SDK,3 个 tool(搜索 / 计算器 / 文件读写)。重点:把 prompt cache 命中率打印出来,看 cache 是怎么工作的。
- 给 Claude Code / Codex 写一套 Skills + AGENTS.md:把你团队的「提交规范、release 流程、内部库 API、常见排错」做成 skills,让 harness 在你 repo 里「开箱即用」。这是 2026 年最容易出影响力的一类项目。
- DevOps Copilot harness:fork goose 或 OpenHands,加入
kubectl、terraform plan、Prometheus、PagerDuty 只读 tool,做一个集群诊断 agent。强烈建议加 OPA 风格的 policy 拦截层(safety first)。 - 写一个 MCP server:把你团队某个内部系统(Jira、Confluence、内部 K8s 控制面)包成 MCP server,配上 Claude Desktop / Cursor / Codex 连接说明。
- 接一层 Memory Layer:给上面 3 / 4 接入 Mem0 或 Letta,让 agent 跨 session 记住「上次这个 namespace 出过什么问题、谁在 oncall」。跑一遍 LoCoMo 风格自测。
- 用 Hermes(或自写一个简版)编排两个 harness:Codex 负责重的代码改写,Claude Code 负责审阅 + 解释,Hermes 维持共享 context。这是 2026 年最前沿的「meta-harness」范式。
- 复刻一个迷你 Claw:参考 NanoClaw(~4000 行)写一个跑在自己 Mac mini / Raspberry Pi 上、通过 Telegram / Signal 控制、能调度任务的私人 assistant harness。强烈建议禁掉所有 outbound 写操作,否则参考 OpenClaw 那次「speedrun 删邮件」教训。
Stage 4 · 评测、可观测、安全(容易被忽视的”后半场”)
目标
- 让 Agent 可被回归测试、可被观测、可被治理。这一阶段最能把 DevOps 经验变现。
关键概念
- Eval:offline(fixed dataset)/ online(A/B、影子流量)/ LLM-as-judge / 人工标注
- Tracing:OpenTelemetry GenAI semantic conventions、span / generation 概念
- Prompt Injection、jailbreak、PII 泄漏、数据投毒
- Cost / token 限流、rate limit、fallback
- 幻觉缓解:grounding、citation、constrained decoding
资源
- 官方 / 工具
- Langfuse(开源,自托管友好,DevOps 应该很喜欢)
- Arize Phoenix
- Braintrust、LangSmith
- Ragas、DeepEval
- OpenTelemetry GenAI 规范
- 安全
- OWASP Top 10 for LLM Applications
- Lakera Prompt Injection Playbook
- Simon Willison 的 prompt injection 系列文章
- Eval 框架
- Inspect AI(UK AISI 出品,2025 年起的 agent eval 事实标准之一)
- Promptfoo、OpenAI Evals
- 论文 / 报告 / Benchmark
- MMLU-Pro、GPQA Diamond、SWE-bench Verified、Terminal-Bench、GAIA、BrowseComp、τ-bench(tool use)
- LoCoMo(长对话 memory)、MTEB v2(embedding)
实战项目
- 给 Stage 3 的 Agent 接入 Langfuse,建立 100 条 golden dataset,跑 nightly eval。
- 做一次红队:对自己的 Agent 实施 5 种 prompt injection,写复盘。
- 用 OpenTelemetry 把 LLM 调用接入你已有的 Grafana / Loki 栈。
Stage 5 · 模型微调(LoRA / RLHF / DPO)
你选了”要能动手做微调”,所以这一阶段必修。但请记住:90% 的业务问题用 prompt + RAG 就能解决,先穷尽前面的手段再来微调。
目标
- 理解 pretraining / SFT / RLHF / DPO 的关系。
- 能在单卡 / 多卡上跑通 LoRA / QLoRA 微调,并把模型部署起来。
关键概念
- Transformer 架构细节、注意力变体(MHA / GQA / MLA)
- PEFT 家族:LoRA、QLoRA、DoRA
- 对齐:RLHF(PPO)、DPO、KTO、ORPO;GRPO 与 DeepSeek-R1 风格的 RL on verifiable rewards
- RL Environments / Verifiable rewards(Karpathy 2025-11 强调这是 2026 年训练 agent 的「主战场」——可参考 Prime Intellect Environments Hub 等社区项目)
- 数据集构建(最难的一步)、数据去重、合成数据
- 训练框架:
transformers+trl+peft、axolotl、unsloth、verl - 推理优化:量化(GPTQ / AWQ / GGUF)、speculative decoding
资源
- 课程
- Hugging Face LLM Course
- Karpathy 《Let’s reproduce GPT-2》
- Stanford CS336 Language Modeling from Scratch(公开课件)
- 论文 / 技术报告
- LoRA(2021)、QLoRA(2023)
- InstructGPT(RLHF 起点)、Direct Preference Optimization(DPO,2023)
- DeepSeekMath(GRPO 起源)、DeepSeek-V3 / R1 Tech Reports、Llama 3、Kimi K2 / K2.5、GLM-5(2026 年开源派的几份必读)
- Tülu 3(Allen AI 系统讲 SFT + DPO + RLVR pipeline)
- 开源
- 书籍
- Build a Large Language Model (From Scratch),Sebastian Raschka
实战项目
- 用
unsloth+ 一张消费级 GPU(或 Colab / RunPod)QLoRA 微调一个 7B 模型,做一个风格化助手(比如模仿你博客的语气)。 - 用 DPO 调一次同一个模型,对比 SFT-only 的差异。
- 用
vllm把微调后的模型部署成 OpenAI-compatible API,接回你 Stage 3 的 Agent。
Stage 6 · LLM Platform / Infra(DevOps 同学的主场)
目标
- 把 LLM / Agent 当成有状态、长尾延迟、GPU 绑定的服务来运营。
- 给团队提供”自助式” LLM 能力(gateway、quota、audit、evals as a service)。
关键概念
- 推理引擎:vLLM、SGLang、TensorRT-LLM、TGI 的取舍(2026 年 vLLM 与 SGLang 双寡头)
- KV Cache、PagedAttention、continuous batching、prefix caching、chunked prefill
- Disaggregated serving:prefill / decode 分离(NVIDIA Dynamo、vLLM PD-disagg、Mooncake 思路)——2025-2026 大模型服务化最大的架构变化
- Speculative decoding、EAGLE、MTP
- 服务化:模型路由、smart routing(按 prompt 难度选模型)、KV-aware load balancing、autoscaling on GPU
- Kubernetes 原生 LLM 栈:
llm-d(Red Hat / Google / IBM 主推)、KServe 的 LLM Runtime、KAITO、KubeRay - LLM Gateway:LiteLLM、Portkey、Helicone、Cloudflare AI Gateway
- GPU 调度:Device Plugin、MIG、DRA(Dynamic Resource Allocation,K8s 1.34+ GA)
- 多租户配额、PII redaction、合规(EU AI Act 已 in force)
- 数据飞轮:日志 → 标注 → 数据集 → SFT/DPO/RLVR → 上线
资源
- 官方文档
- 论文 / 工程文章
- Efficient Memory Management for LLM Serving with PagedAttention(vLLM 论文)
- FlashAttention 1/2/3
- Character.AI、Anthropic、OpenAI 关于 inference infra 的工程博客
- 开源
- Newsletter
- Latent Space
- SemiAnalysis —— 硬件 / 容量视角,DevOps 必读
实战项目
- 自建 LLM Gateway:基于 LiteLLM,加上你团队的 SSO、quota、Langfuse 上报,全套 Helm chart。
- vLLM / SGLang on K8s:单节点 → 多节点 TP / PP / EP,用 Prometheus 看 token/s、TTFT、TPOT、prefix cache hit。
- PD 分离实验:用 llm-d 或 Dynamo 把 prefill 与 decode 分到不同 GPU 池,测对长 context 工作负载的 TTFT / 吞吐改善。
- GPU Autoscaler PoC:基于队列深度 + KV cache 占用(而非 CPU)扩缩容,写一篇内部文档解释为什么传统 HPA 不适用。
- 完整数据飞轮:Stage 4 的 trace → 自动挑选低分对话 → 人工修订 → 周期性 SFT/DPO → A/B 上线。
一些”反 roadmap”的建议
- 不要按线性时间走完。Stage 1 → 3 跑通后,立刻找一个真实业务场景,从场景倒逼回去补 4、5、6。否则学完会忘。
- 写文档比写代码重要。Agent 时代,prompt 和 tool description 都是文档;产品决策、eval 报告都是文档。这是 senior 和 junior 的关键差。
- 追踪一个稳定的小社区就够。我个人订阅:Simon Willison、Lilian Weng、Latent Space、Anthropic Engineering、HuggingFace blog、Jason Liu。再多就是噪音。
- 优先动手,再看综述。看到一个新概念(比如 GraphRAG、Agentic RAG、AutoGen v2),先用半天写个最小可跑的版本,再回头看论文 / 文章,吸收效率高 10 倍。
- 小心框架陷阱。LangChain / LlamaIndex 的 API 还在剧烈迭代,理解概念比记 API 重要;任何时候都要能用 200 行原生 SDK 复现你的 Agent 核心逻辑。
- DevOps 经验不要丢。当所有人都在卷 prompt 时,懂 GPU、懂 K8s、懂可观测性的人才是稀缺品。把”我能让这个 Agent 7×24 稳定跑在生产”作为你的差异化标签。
配套书单(可选)
- Hands-On Large Language Models — Jay Alammar & Maarten Grootendorst
- Build a Large Language Model (From Scratch) — Sebastian Raschka
- AI Engineering — Chip Huyen(2024,少有的体系化作品)
- Designing Machine Learning Systems — Chip Huyen(虽然不是 LLM 专项,但 ML system 思维必备)
- Prompt Engineering for LLMs — John Berryman & Albert Ziegler(O’Reilly)
附录:Agent 工程化范式的演进史(2022-2026)
这一节专门留给「考古」:你在 2026 年读到 2023 / 2024 年那些教程、博客、视频时,往往会困惑「为什么大家在认真讨论一个我从没听过的库」。下面是一份不算完全公允的「流派对照表」,方便你定位它们在今天的位置。
流派一:Prompt Toolbox(2022 末 – 2023 上)
- 代表:原始 LangChain(
Chain、AgentExecutor、load_tools)、LlamaIndex 早期 - 核心叙事:「把 prompt 模板和工具调用串成 Chain」
- 典型代码:
initialize_agent(tools, llm, agent="zero-shot-react-description") - 被淘汰原因:抽象层比业务层还重,调试地狱;模型一升级(function calling、JSON mode 普及)整套 abstraction 立刻冗余
- 今天的位置:LangChain 自身已经几乎重写,老 API 仍在但不是任何人的首选
流派二:Multi-Agent 协作框架(2023 下 – 2024 上)
- 代表:AutoGen(v0.2)、CrewAI、MetaGPT、ChatDev、CAMEL
- 核心叙事:「让多个角色 agent 互相对话,模拟一个软件公司 / 研究所」
- 典型代码:定义
Researcher/Coder/Critic三个 role,让他们自己开会 - 被降级原因:演示效果好、上线效果差;token 烧得吓人、出错时 root-cause 几乎不可能;2024 下半年 Anthropic 那篇 Building effective agents 给出了「绝大多数情况你需要的是 workflow 而不是多 agent」的明确判断
- 今天的位置:AutoGen v0.4 重写为事件驱动后仍在;研究类项目和「让多个模型互相对照」的场景下还在用,不是默认范式
流派三:状态机派 / 图编排(2024)
- 代表:LangGraph、Burr、Inngest(agent 模式)
- 核心叙事:「Agent 本质是一张有循环的状态图,把节点 / 边显式画出来更可控」
- 当下定位:仍然有效,是「需要持久化、HITL、长时运行、人工审批」场景的首选——尤其在企业内部平台向产品里。但不是 2026 的入门姿势,因为大部分一线开发者今天先接触的是 Claude Code / Codex 这样的 harness,而不是从零造一个 graph
流派四:类型安全派(2024 末 起)
- 代表:Pydantic AI、Instructor、Marvin
- 核心叙事:「function calling 的输出是结构化的,那 agent 的所有边界都用 Pydantic 卡死」
- 当下定位:仍是好选择,尤其当你的 agent 输出要进数据库、要被下游程序消费。它和 harness 不冲突——Claude Code 的内部其实就是大量结构化 schema
流派五:Coding Agent 范式(2024 中起爆 → 2026 主流)
- 早期代表:smol-developer、GPT-Engineer、Devin(2024 春)、Aider、Cursor、Cline
- 2025 工业化:Claude Code(2025-05 GA)、OpenAI Codex CLI / Codex app、OpenCode、goose(Block 开源)
- 2026 泛化:「Coding Agent 是包装最完整的通用 agent,把它的 sandbox / shell / file 能力解开来就是任何工作的 agent」——Claude Code 改名 Cowork、Codex 上 Skills + Automations 都是这个判断的产物
- 今天的位置:主战场。Stage 3.1 整节讲的就是它
流派六:Personal Assistant Harness / 「Claws」(2025 末 – 2026 爆发)
- 代表:OpenClaw(前身 Clawdbot → Moltbot)、NanoClaw、PicoClaw、ZeroClaw
- 核心叙事:「把 coding agent harness 的能力下放到本地硬件 + IM(Telegram / Signal / WhatsApp)+ 定时任务,做一个真正属于个人的 24/7 助手」
- 特征:通常运行在 Mac mini / Raspberry Pi,强调本地化与可审计;也是踩坑最多的一类(删邮件、刷 PR、autonomous 影响力操作等都在 2026 上半年集中爆发)
- 今天的位置:仍处于 Wild West 阶段,正经场景需要严格的 outbound 限制
流派七:Meta-Harness / 跨编排(2026 萌芽)
- 代表:Hermes Agent(Nous Research)、社区里各种「orchestrator-of-orchestrators」实验
- 核心叙事:「不同 harness(Claude Code、Codex、Cline)各有所长,让它们在共享 context 下分工」
- 今天的位置:尚早,但是值得跟踪——你可以把它视作 2024 年 multi-agent 论调的「工程化重生」,不再是模型互相对话,而是 harness 互相调度
一张图总结
flowchart
A["2022 末<br/>Prompt Toolbox<br/>(LangChain v0.x)"] --> B["2023 下<br/>Multi-Agent 协作<br/>(AutoGen v0.2 / CrewAI)"]
B --> C["2024 上<br/>状态机 / 图编排<br/>(LangGraph)"]
C --> D["2024 末<br/>类型安全派<br/>(Pydantic AI / Instructor)"]
D --> E["2025<br/>Coding Agent 工业化<br/>(Claude Code / Codex / goose)"]
E --> F["2025 末<br/>Personal Assistant Harness<br/>(OpenClaw / Claws)"]
F --> G["2026<br/>Meta-Harness<br/>(Hermes / 跨 harness 编排)"]
classDef legacy fill:#eee,stroke:#999,color:#555
classDef current fill:#9ad,stroke:#357,color:#000
class A,B,C,D legacy
class E,F,G current
如果你今天才入门,直接从 2025 这一行往下学就是最短路径;前面三行做「读懂老博客 + 不踩坑」用就够。
给我自己的下一步 TODO
- 完成 Stage 3 的 MCP Server 项目,开源出来
- 在博客里专门开一个 AI Engineering Notes 分类,记录每个 stage 的踩坑
- 把现有 K8s 集群接入 vLLM + LiteLLM + Langfuse 的最小生产闭环
- 用 unsloth 做一次”博客口吻”模型微调,作为 Stage 5 的毕业项目
路线图是死的,节奏是活的。Roadmap 的价值不在”必须按它走”,而在”任何时候迷茫了,知道自己缺哪一块”。共勉。