成为 AI Agent 工程师的学习 Roadmap（2026）

写给和我一样、有一定 Python 基础与 DevOps 背景，希望转型 / 进阶为 AI Agent 工程师或 LLM Platform 工程师的人。
参考：roadmap.sh/ai-engineer、roadmap.sh/ai-agents。
本文不设硬性时间表，按”能力阶段”递进；每个阶段给出官方文档 / 论文 / 开源项目 / 视频 / 书籍 / Newsletter 六类资源，以及可落地的实战项目。

给 DevOps 背景同学的一句忠告：不要被铺天盖地的 LLMOps 名词唬住。你已有的 Kubernetes、CI/CD、IaC、可观测性、容量规划经验，在 LLM Infra 时代是稀缺品。真正缺的是上层的 模型直觉 和 Agent 工程化范式——本 roadmap 就是补这两块。

本文按 2026 年此刻真正在生产里被使用的形态来组织内容：agent harness + memory layer + context engineering 是 Stage 3 的主语，框架（LangGraph / AutoGen 等）只在它们仍然合适的场景下出现。文末附一节《Agent 工程化范式的演进史》，用来对照过去几年那些昙花一现或被降级的流派——你在网上看到 2023/2024 年的教程时，可以拿那一节对位。

0. 总览路线图

flowchart TD
    Start([Python + DevOps 基础]) --> S1[Stage 1<br/>LLM 应用基础]
    S1 --> S2[Stage 2<br/>RAG 与上下文工程]
    S2 --> S3[Stage 3<br/>Agent 工程化]
    S3 --> S4[Stage 4<br/>评测 / 可观测 / 安全]
    S3 --> S5[Stage 5<br/>模型微调 LoRA / RLHF]
    S4 --> S6[Stage 6<br/>LLM Platform / Infra]
    S5 --> S6
    S6 --> Goal([AI Agent 工程师 ✕ LLM Platform 工程师])

    classDef done fill:#9ad,stroke:#357,color:#000
    classDef todo fill:#fde,stroke:#b48,color:#000
    class Start done
    class Goal todo

两条主线交汇：

应用主线：Stage 1 → 2 → 3 → 4，做出真正能上线的 Agent 产品。
底层主线：Stage 5 → 6，理解模型本身 + 把 Agent 当成”分布式系统”来运维。

DevOps 背景的同学，建议 1→2→3→4 走完后，在 5、6 中根据兴趣二选一深入；想做 Platform 就重 6 轻 5，想做研究型应用就反之。

Stage 1 · LLM 应用基础（必经之路）

目标

不再把 LLM 当黑魔法，能解释 token、context window、temperature、top-p、function calling、structured output、prompt caching 各是什么。
熟练用 OpenAI / Anthropic / Google 三家原生 SDK，至少手写 3 个不依赖框架的小工具。
知道 2026 年这一代主力模型的家底：Claude Opus 4.5/4.6、GPT-5.2 / 5.4-Codex、Gemini 3、DeepSeek-V3.x / R1、Kimi K2.5、GLM-5——以及它们各自的「性格」。

关键概念清单

Tokenization（BPE / tiktoken）、上下文窗口、KV Cache 直觉
Sampling 参数：temperature、top-p、top-k、logprobs
Tool Use / Function Calling / Structured Output（JSON Schema）
Prompt caching（Anthropic / OpenAI / Gemini 都已普及；是 Claude Code 等长链路 agent 能跑得起来的根本前提）
Streaming、SSE、async I/O
Reasoning / thinking models 与普通模型的取舍（Opus thinking、GPT-5 thinking、Gemini 3 Deep Think）
Cost & latency 的工程权衡

资源

官方文档
- Anthropic API Docs —— 当前 Agent 文档质量最高的一家
- OpenAI Cookbook
- Google Gemini API
论文（精读，不要只看摘要）
- Attention Is All You Need（2017）
- Language Models are Few-Shot Learners（GPT-3, 2020）
- Chain-of-Thought Prompting（2022）
视频
- Andrej Karpathy 《Intro to LLMs》 + 《Let’s build GPT》系列
书籍
- Hands-On Large Language Models（O’Reilly，Jay Alammar 著），适合系统补全图谱
Newsletter / 博客
- Simon Willison’s Weblog —— 实操向，每天看一眼不会错
- Lilian Weng’s Blog —— 综述写得最清楚的人之一

实战项目

CLI 翻译器 + 词典：纯 SDK，支持流式输出、自定义 system prompt、保存历史。
Structured Extractor：给一段 Jira / Confluence 文本，用 function calling 抽出结构化字段，对比 Pydantic 校验失败率。
多家 LLM 路由器：写一个统一接口的 llm_call(provider, model, ...)，输出 cost / latency 对比表（你 DevOps 的本能应该很喜欢这个）。

Stage 2 · RAG 与上下文工程

目标

理解 RAG 不是”接个向量库”那么简单，而是 chunking → embedding → retrieval → reranking → prompt assembly 一整条流水线。
能就业务数据做出可评测的 RAG，不只是 demo。

关键概念清单

Embedding 模型选型（OpenAI text-embedding-3、Voyage 3、Cohere Embed v4、bge-m3、Qwen3-Embedding、Nomic v2）
向量数据库：pgvector / Qdrant / Weaviate / LanceDB / Turbopuffer 的权衡
Chunking 策略：fixed / recursive / semantic / late chunking（2024 起的事实最佳实践）
Hybrid Search（BM25 + dense）、Reranker（Cohere Rerank 3、bge-reranker-v2、Voyage Rerank）
Query rewriting、HyDE、multi-query、ColBERT / ColPali（多向量与视觉 RAG）
Agentic RAG：把检索本身变成 agent 的 tool，而不是固定 pipeline（与 Stage 3 的 harness 衔接）
GraphRAG / LightRAG / HippoRAG：知识图谱辅助检索这条支线在 2025 已经站稳
长上下文 vs RAG 的取舍（Gemini 3 / GPT-5.2 已把「百万 context + cache」做成默认选项，很多 RAG 场景被改写）

资源

官方文档
- LlamaIndex Docs —— RAG 概念解释最系统
- pgvector —— DevOps 同学请优先选 Postgres 方案
论文
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks（2020，原始 RAG）
- Lost in the Middle（2023）
- Self-RAG、Corrective RAG (CRAG)
开源项目
- ragatouille（ColBERT 实战）
- r2r（production-grade RAG 参考实现）
博客
- Jason Liu 的 RAG 系列（jxnl.co），工程视角极强

实战项目

个人知识库 RAG：把你过去几年的博客 / 笔记灌进去，做一个能引用原文链接的问答。
代码库问答：选一个中等规模 repo（比如 vllm），实现 file-level + symbol-level 双层检索。
RAG 评测台：用 Ragas 或自写 LLM-as-judge，对 chunk size、reranker 开关做 A/B，输出报表——这一步很多人跳过，但这是从”会调 API”到”工程师”的分水岭。

Stage 3 · Agent Harness、Memory Layer 与 Context Engineering（2026 年的核心）

这一阶段是整篇 roadmap 最重要、也是最容易过时的一节。关键词从 2024 年的「Agent 框架」变成了 2026 年的「Agent harness」+「Memory Layer」+「Context Engineering」。下面会先讲清楚这三个名词，再列资源和项目。

3.1 什么是 Agent Harness？

2026 年大家在用、在卷、在赚钱的 Agent，几乎全都长成同一个样子：

一个 CLI / 桌面 app，包住一个模型，再包上 sandbox、文件工具、shell 工具、prompt cache、子 agent、todo list、skills、hooks、MCP client。

这一整层就叫 agent harness（也叫 agentic harness、coding agent harness；Karpathy 给的新昵称是 「Claws」 🦞）。代表作：

类别	代表	出品方
终端/IDE 内 coding harness	Claude Code、Codex CLI / Codex app、Cursor、Cline、OpenCode、Aider	Anthropic / OpenAI / 社区
通用工作 harness（「Claude Code for everything」）	Claude Cowork（前身 Claude Code 的非编码模式）、Codex app + Automations	Anthropic / OpenAI
桌面/手机端 personal-assistant harness（「Claws」）	OpenClaw、Moltbot、NanoClaw、PicoClaw、ZeroClaw	Peter Steinberger 等
跨 harness 编排层	Hermes Agent	Nous Research
开源、可部署	goose（Block，已捐给 AAIF）、OpenHands	Block / All-Hands-AI

你应该把「会用 + 会读源码 + 会扩展」这些 harness 当成 2026 年 Agent 工程师的硬核能力，优先级高于任何一个 Python Agent 框架。

harness 真正解决的工程问题（这也是面试时能聊出深度的点）：

prompt caching 设计：Claude Code 的 Thariq Shihipar 公开说过，「我们整个 harness 围绕 prompt cache 命中率来设计，命中率掉了就当 SEV 报警」。你要理解为什么 system prompt 顺序、tool 描述顺序、todo list 都得是 cache 友好的。
context compaction / 截断策略：长会话怎么压缩、压缩时如何不丢初始指令（Summer Yue 那条 OpenClaw 翻车案例就是 compaction 把「don’t action」指令丢了）。
sandbox：Claude Cowork 用本地容器，Codex app 是 macOS app sandbox，Co-do 用 <iframe sandbox> + WebAssembly 把浏览器变成 sandbox。
sub-agent / spawn：主 agent 派 sub-agent 干「窄任务」，结果摘要回主 agent，主 agent 的 context 不被污染。
hooks / skills / commands：harness 可扩展性的三大支柱（详见 3.3）。

3.2 Memory Layer：从「塞 vector DB」到独立产品类别

2026 年的另一个分水岭是：memory 不再是 RAG 的一个章节，而是一个独立的中间件类别。代表产品和它们的取向：

产品	一句话定位	适用场景
Mem0	提取-存储-检索三段式 SDK，最像「memory 中的 Redis」	通用对话 / personal assistant
Letta（前身 MemGPT）	把 OS 概念搬进 LLM：core memory + archival memory + 函数调用调度	长期人格化 agent
Zep	基于时序知识图谱（temporal graph）的 episodic memory，强在事实更新和时间推理	客服、CRM、需要「前后对照」的场景
LangMem	LangChain 出的一套 memory primitives，紧贴 LangGraph	已经在 LangGraph 栈里
Cognee	knowledge graph + ontology 路线	偏知识管理
Supermemory / Superlocalmemory	个人本地优先	indie hacker

社区已经有了正经的 benchmark：LoCoMo（Long Conversation Memory）、agentmarketcap 的 vendor landscape 报告等。

选型口诀（综合 2026 年几篇对比文章）：

要快上线、要 SaaS 兜底 → Mem0
要长期人格、要「agent 自己改自己的 memory」 → Letta
业务有大量「事实随时间变化」的场景（人事、库存、订单）→ Zep
就想自己造，且团队懂图数据库 → Cognee 或自己在 pgvector + Postgres 上手撸

3.3 Context Engineering：取代 Prompt Engineering 的新词

2025 下半年到 2026 上半年，「prompt engineering」这个词基本被 「context engineering」 顶掉了。背后是几篇关键文章：

Matt Webb 的《Context plumbing》 —— 把 agent 工程比作「把 context 从源端管道到 LLM 跟前」；
Armin Ronacher 的《Agent design is still hard》 —— 提出 reinforcement 概念：每次 tool 返回时顺手把目标、todo 状态、背景变化「塞回去」提醒 agent，Claude Code 的 todo list 就是典型；
Karpathy 的「agentic engineering」一词 + 后续的「Claws」命名。

这一节要掌握的具体技术：

AGENTS.md（OpenAI 主推，已捐给 AAIF）：仓库根目录给 agent 看的「团队规则」
Skills（Anthropic 主推，已成 agentskills.io 开放标准；Cursor / Codex / OpenCode / Amp / goose / Letta / VS Code 全部支持）：把「会做某件事的知识包」以目录 + SKILL.md 形式分发
MCP（Model Context Protocol）：现在归 AAIF（Agentic AI Foundation）治理，事实标准
prompt caching 友好的 system prompt 排版
reinforcement / 状态回灌
context compaction：何时压缩、压缩什么、保留什么
sub-agent 的 context 隔离

3.4 还要不要学 LangGraph / Pydantic AI？

要学，但降级：

选型	我现在的看法
原生 SDK + 200 行 loop（Anthropic / OpenAI）	必修。2025 下半年开始，Armin Ronacher 等几乎所有重度 agent 实践者都明确说「短期内不上抽象，差异在 cache control / reinforcement / tool prompt，框架抽不走」。
LangGraph	仍是「需要状态机 + 持久化 + 分布式」场景下最成熟的，团队/平台向产品依然推荐。但不要把它当「agent 入门课」。
Pydantic AI	类型安全党友好；轻量项目可用。
AutoGen / CrewAI	主要在做「研究型多 agent 协作」演示项目时考虑。
OpenAI Agents SDK	OpenAI 自家的轻量 agent 抽象，配合 Codex 生态用很顺。

3.5 资源

必读文章 / 帖子
- Anthropic 《Building effective agents》 —— 仍是奠基
- Anthropic 《How we built our multi-agent research system》
- OpenAI 《A practical guide to building agents》
- Armin Ronacher 《Agent design is still hard》 + 《LLM APIs are a Synchronization Problem》
- Matt Webb 《Context plumbing》
- Thomas Ptacek 《You should write an agent》
- 《Inside the Agent Harness: How Codex and Claude Code Actually Work》（Medium，2026）
- Steve Yegge 《Software Survival 3.0》 ——「Desire Paths」/ 让 hallucination 成真
论文 / Benchmark
- ReAct（仍在）、Reflexion、Voyager
- SWE-bench / SWE-bench Verified、Terminal-Bench、GAIA、BrowseComp、LoCoMo（memory）
- vLLM 论文里的 prefix caching 章节（理解 cache 行为）
官方文档 / 标准
- Model Context Protocol、AAIF、Agent Skills 标准、AGENTS.md
- Claude Code docs、Codex docs、goose docs
- Memory layer：Mem0、Letta、Zep、LangMem
- 框架：LangGraph、Pydantic AI、OpenAI Agents SDK
开源项目（建议真的把源码读一遍，至少读 harness 主 loop）
- OpenClaw —— 2026 年最火的个人 assistant harness
- goose —— 唯一一个进 AAIF 的开源 harness
- OpenHands、Aider、OpenCode
- Cline —— VS Code 内 harness
- browser-use —— browser agent
- Everything-Claude-Code —— 一份维护得很认真的 skills + hooks + commands 集合
视频 / 课程
- DeepLearning.AI AI Agents in LangGraph、Long-Term Agentic Memory With LangGraph
- Anthropic 官方 Claude Code workshop / cookbook
- 各家 harness 维护者在 YouTube 的实战直播（搜「claude code workflow」、「codex skills」、「hermes agent」）
博客 / Newsletter
- Simon Willison 的 ai-agents / coding-agents tag —— 2026 年这条战线最稳定的实时观察站
- Latent Space、Lilian Weng、Jason Liu

3.6 实战项目（按难度递增，全部带 2026 时态）

手写 ReAct Agent：< 300 行原生 SDK，3 个 tool（搜索 / 计算器 / 文件读写）。重点：把 prompt cache 命中率打印出来，看 cache 是怎么工作的。
给 Claude Code / Codex 写一套 Skills + AGENTS.md：把你团队的「提交规范、release 流程、内部库 API、常见排错」做成 skills，让 harness 在你 repo 里「开箱即用」。这是 2026 年最容易出影响力的一类项目。
DevOps Copilot harness：fork goose 或 OpenHands，加入 kubectl、terraform plan、Prometheus、PagerDuty 只读 tool，做一个集群诊断 agent。强烈建议加 OPA 风格的 policy 拦截层（safety first）。
写一个 MCP server：把你团队某个内部系统（Jira、Confluence、内部 K8s 控制面）包成 MCP server，配上 Claude Desktop / Cursor / Codex 连接说明。
接一层 Memory Layer：给上面 3 / 4 接入 Mem0 或 Letta，让 agent 跨 session 记住「上次这个 namespace 出过什么问题、谁在 oncall」。跑一遍 LoCoMo 风格自测。
用 Hermes（或自写一个简版）编排两个 harness：Codex 负责重的代码改写，Claude Code 负责审阅 + 解释，Hermes 维持共享 context。这是 2026 年最前沿的「meta-harness」范式。
复刻一个迷你 Claw：参考 NanoClaw（~4000 行）写一个跑在自己 Mac mini / Raspberry Pi 上、通过 Telegram / Signal 控制、能调度任务的私人 assistant harness。强烈建议禁掉所有 outbound 写操作，否则参考 OpenClaw 那次「speedrun 删邮件」教训。

Stage 4 · 评测、可观测、安全（容易被忽视的”后半场”）

目标

让 Agent 可被回归测试、可被观测、可被治理。这一阶段最能把 DevOps 经验变现。

关键概念

Eval：offline（fixed dataset）/ online（A/B、影子流量）/ LLM-as-judge / 人工标注
Tracing：OpenTelemetry GenAI semantic conventions、span / generation 概念
Prompt Injection、jailbreak、PII 泄漏、数据投毒
Cost / token 限流、rate limit、fallback
幻觉缓解：grounding、citation、constrained decoding

资源

官方 / 工具
- Langfuse（开源，自托管友好，DevOps 应该很喜欢）
- Arize Phoenix
- Braintrust、LangSmith
- Ragas、DeepEval
- OpenTelemetry GenAI 规范
安全
- OWASP Top 10 for LLM Applications
- Lakera Prompt Injection Playbook
- Simon Willison 的 prompt injection 系列文章
Eval 框架
- Inspect AI（UK AISI 出品，2025 年起的 agent eval 事实标准之一）
- Promptfoo、OpenAI Evals
论文 / 报告 / Benchmark
- MMLU-Pro、GPQA Diamond、SWE-bench Verified、Terminal-Bench、GAIA、BrowseComp、τ-bench（tool use）
- LoCoMo（长对话 memory）、MTEB v2（embedding）

实战项目

给 Stage 3 的 Agent 接入 Langfuse，建立 100 条 golden dataset，跑 nightly eval。
做一次红队：对自己的 Agent 实施 5 种 prompt injection，写复盘。
用 OpenTelemetry 把 LLM 调用接入你已有的 Grafana / Loki 栈。

Stage 5 · 模型微调（LoRA / RLHF / DPO）

你选了”要能动手做微调”，所以这一阶段必修。但请记住：90% 的业务问题用 prompt + RAG 就能解决，先穷尽前面的手段再来微调。

目标

理解 pretraining / SFT / RLHF / DPO 的关系。
能在单卡 / 多卡上跑通 LoRA / QLoRA 微调，并把模型部署起来。

关键概念

Transformer 架构细节、注意力变体（MHA / GQA / MLA）
PEFT 家族：LoRA、QLoRA、DoRA
对齐：RLHF（PPO）、DPO、KTO、ORPO；GRPO 与 DeepSeek-R1 风格的 RL on verifiable rewards
RL Environments / Verifiable rewards（Karpathy 2025-11 强调这是 2026 年训练 agent 的「主战场」——可参考 Prime Intellect Environments Hub 等社区项目）
数据集构建（最难的一步）、数据去重、合成数据
训练框架：transformers + trl + peft、axolotl、unsloth、verl
推理优化：量化（GPTQ / AWQ / GGUF）、speculative decoding

资源

课程
- Hugging Face LLM Course
- Karpathy 《Let’s reproduce GPT-2》
- Stanford CS336 Language Modeling from Scratch（公开课件）
论文 / 技术报告
- LoRA（2021）、QLoRA（2023）
- InstructGPT（RLHF 起点）、Direct Preference Optimization（DPO，2023）
- DeepSeekMath（GRPO 起源）、DeepSeek-V3 / R1 Tech Reports、Llama 3、Kimi K2 / K2.5、GLM-5（2026 年开源派的几份必读）
- Tülu 3（Allen AI 系统讲 SFT + DPO + RLVR pipeline）
开源
- unsloth —— 单卡 QLoRA 友好
- axolotl
- trl
书籍
- Build a Large Language Model (From Scratch)，Sebastian Raschka

实战项目

用 unsloth + 一张消费级 GPU（或 Colab / RunPod）QLoRA 微调一个 7B 模型，做一个风格化助手（比如模仿你博客的语气）。
用 DPO 调一次同一个模型，对比 SFT-only 的差异。
用 vllm 把微调后的模型部署成 OpenAI-compatible API，接回你 Stage 3 的 Agent。

Stage 6 · LLM Platform / Infra（DevOps 同学的主场）

目标

把 LLM / Agent 当成有状态、长尾延迟、GPU 绑定的服务来运营。
给团队提供”自助式” LLM 能力（gateway、quota、audit、evals as a service）。

关键概念

推理引擎：vLLM、SGLang、TensorRT-LLM、TGI 的取舍（2026 年 vLLM 与 SGLang 双寡头）
KV Cache、PagedAttention、continuous batching、prefix caching、chunked prefill
Disaggregated serving：prefill / decode 分离（NVIDIA Dynamo、vLLM PD-disagg、Mooncake 思路）——2025-2026 大模型服务化最大的架构变化
Speculative decoding、EAGLE、MTP
服务化：模型路由、smart routing（按 prompt 难度选模型）、KV-aware load balancing、autoscaling on GPU
Kubernetes 原生 LLM 栈：llm-d（Red Hat / Google / IBM 主推）、KServe 的 LLM Runtime、KAITO、KubeRay
LLM Gateway：LiteLLM、Portkey、Helicone、Cloudflare AI Gateway
GPU 调度：Device Plugin、MIG、DRA（Dynamic Resource Allocation，K8s 1.34+ GA）
多租户配额、PII redaction、合规（EU AI Act 已 in force）
数据飞轮：日志 → 标注 → 数据集 → SFT/DPO/RLVR → 上线

资源

官方文档
- vLLM Docs —— 一定要读 architecture 和 paged attention 章节
- SGLang
- KServe、Ray Serve
论文 / 工程文章
- Efficient Memory Management for LLM Serving with PagedAttention（vLLM 论文）
- FlashAttention 1/2/3
- Character.AI、Anthropic、OpenAI 关于 inference infra 的工程博客
开源
- vllm、sglang
- llm-d —— 2025 才开源、Kubernetes-native 的分布式推理栈，DevOps 同学的甜区
- NVIDIA Dynamo —— PD 分离 + smart router 参考实现
- litellm —— 几乎是 LLM Gateway 事实标准
- skypilot —— 多云 GPU 调度
Newsletter
- Latent Space
- SemiAnalysis —— 硬件 / 容量视角，DevOps 必读

实战项目

自建 LLM Gateway：基于 LiteLLM，加上你团队的 SSO、quota、Langfuse 上报，全套 Helm chart。
vLLM / SGLang on K8s：单节点 → 多节点 TP / PP / EP，用 Prometheus 看 token/s、TTFT、TPOT、prefix cache hit。
PD 分离实验：用 llm-d 或 Dynamo 把 prefill 与 decode 分到不同 GPU 池，测对长 context 工作负载的 TTFT / 吞吐改善。
GPU Autoscaler PoC：基于队列深度 + KV cache 占用（而非 CPU）扩缩容，写一篇内部文档解释为什么传统 HPA 不适用。
完整数据飞轮：Stage 4 的 trace → 自动挑选低分对话 → 人工修订 → 周期性 SFT/DPO → A/B 上线。

一些”反 roadmap”的建议

不要按线性时间走完。Stage 1 → 3 跑通后，立刻找一个真实业务场景，从场景倒逼回去补 4、5、6。否则学完会忘。
写文档比写代码重要。Agent 时代，prompt 和 tool description 都是文档；产品决策、eval 报告都是文档。这是 senior 和 junior 的关键差。
追踪一个稳定的小社区就够。我个人订阅：Simon Willison、Lilian Weng、Latent Space、Anthropic Engineering、HuggingFace blog、Jason Liu。再多就是噪音。
优先动手，再看综述。看到一个新概念（比如 GraphRAG、Agentic RAG、AutoGen v2），先用半天写个最小可跑的版本，再回头看论文 / 文章，吸收效率高 10 倍。
小心框架陷阱。LangChain / LlamaIndex 的 API 还在剧烈迭代，理解概念比记 API 重要；任何时候都要能用 200 行原生 SDK 复现你的 Agent 核心逻辑。
DevOps 经验不要丢。当所有人都在卷 prompt 时，懂 GPU、懂 K8s、懂可观测性的人才是稀缺品。把”我能让这个 Agent 7×24 稳定跑在生产”作为你的差异化标签。

配套书单（可选）

Hands-On Large Language Models — Jay Alammar & Maarten Grootendorst
Build a Large Language Model (From Scratch) — Sebastian Raschka
AI Engineering — Chip Huyen（2024，少有的体系化作品）
Designing Machine Learning Systems — Chip Huyen（虽然不是 LLM 专项，但 ML system 思维必备）
Prompt Engineering for LLMs — John Berryman & Albert Ziegler（O’Reilly）

附录：Agent 工程化范式的演进史（2022-2026）

这一节专门留给「考古」：你在 2026 年读到 2023 / 2024 年那些教程、博客、视频时，往往会困惑「为什么大家在认真讨论一个我从没听过的库」。下面是一份不算完全公允的「流派对照表」，方便你定位它们在今天的位置。

流派一：Prompt Toolbox（2022 末 – 2023 上）

代表：原始 LangChain（Chain、AgentExecutor、load_tools）、LlamaIndex 早期
核心叙事：「把 prompt 模板和工具调用串成 Chain」
典型代码：initialize_agent(tools, llm, agent="zero-shot-react-description")
被淘汰原因：抽象层比业务层还重，调试地狱；模型一升级（function calling、JSON mode 普及）整套 abstraction 立刻冗余
今天的位置：LangChain 自身已经几乎重写，老 API 仍在但不是任何人的首选

流派二：Multi-Agent 协作框架（2023 下 – 2024 上）

代表：AutoGen（v0.2）、CrewAI、MetaGPT、ChatDev、CAMEL
核心叙事：「让多个角色 agent 互相对话，模拟一个软件公司 / 研究所」
典型代码：定义 Researcher / Coder / Critic 三个 role，让他们自己开会
被降级原因：演示效果好、上线效果差；token 烧得吓人、出错时 root-cause 几乎不可能；2024 下半年 Anthropic 那篇 Building effective agents 给出了「绝大多数情况你需要的是 workflow 而不是多 agent」的明确判断
今天的位置：AutoGen v0.4 重写为事件驱动后仍在；研究类项目和「让多个模型互相对照」的场景下还在用，不是默认范式

流派三：状态机派 / 图编排（2024）

代表：LangGraph、Burr、Inngest（agent 模式）
核心叙事：「Agent 本质是一张有循环的状态图，把节点 / 边显式画出来更可控」
当下定位：仍然有效，是「需要持久化、HITL、长时运行、人工审批」场景的首选——尤其在企业内部平台向产品里。但不是 2026 的入门姿势，因为大部分一线开发者今天先接触的是 Claude Code / Codex 这样的 harness，而不是从零造一个 graph

流派四：类型安全派（2024 末起）

代表：Pydantic AI、Instructor、Marvin
核心叙事：「function calling 的输出是结构化的，那 agent 的所有边界都用 Pydantic 卡死」
当下定位：仍是好选择，尤其当你的 agent 输出要进数据库、要被下游程序消费。它和 harness 不冲突——Claude Code 的内部其实就是大量结构化 schema

流派五：Coding Agent 范式（2024 中起爆 → 2026 主流）

早期代表：smol-developer、GPT-Engineer、Devin（2024 春）、Aider、Cursor、Cline
2025 工业化：Claude Code（2025-05 GA）、OpenAI Codex CLI / Codex app、OpenCode、goose（Block 开源）
2026 泛化：「Coding Agent 是包装最完整的通用 agent，把它的 sandbox / shell / file 能力解开来就是任何工作的 agent」——Claude Code 改名 Cowork、Codex 上 Skills + Automations 都是这个判断的产物
今天的位置：主战场。Stage 3.1 整节讲的就是它

流派六：Personal Assistant Harness / 「Claws」（2025 末 – 2026 爆发）

代表：OpenClaw（前身 Clawdbot → Moltbot）、NanoClaw、PicoClaw、ZeroClaw
核心叙事：「把 coding agent harness 的能力下放到本地硬件 + IM（Telegram / Signal / WhatsApp）+ 定时任务，做一个真正属于个人的 24/7 助手」
特征：通常运行在 Mac mini / Raspberry Pi，强调本地化与可审计；也是踩坑最多的一类（删邮件、刷 PR、autonomous 影响力操作等都在 2026 上半年集中爆发）
今天的位置：仍处于 Wild West 阶段，正经场景需要严格的 outbound 限制

流派七：Meta-Harness / 跨编排（2026 萌芽）

代表：Hermes Agent（Nous Research）、社区里各种「orchestrator-of-orchestrators」实验
核心叙事：「不同 harness（Claude Code、Codex、Cline）各有所长，让它们在共享 context 下分工」
今天的位置：尚早，但是值得跟踪——你可以把它视作 2024 年 multi-agent 论调的「工程化重生」，不再是模型互相对话，而是 harness 互相调度

一张图总结

flowchart 
    A["2022 末<br/>Prompt Toolbox<br/>(LangChain v0.x)"] --> B["2023 下<br/>Multi-Agent 协作<br/>(AutoGen v0.2 / CrewAI)"]
    B --> C["2024 上<br/>状态机 / 图编排<br/>(LangGraph)"]
    C --> D["2024 末<br/>类型安全派<br/>(Pydantic AI / Instructor)"]
    D --> E["2025<br/>Coding Agent 工业化<br/>(Claude Code / Codex / goose)"]
    E --> F["2025 末<br/>Personal Assistant Harness<br/>(OpenClaw / Claws)"]
    F --> G["2026<br/>Meta-Harness<br/>(Hermes / 跨 harness 编排)"]

    classDef legacy fill:#eee,stroke:#999,color:#555
    classDef current fill:#9ad,stroke:#357,color:#000
    class A,B,C,D legacy
    class E,F,G current

如果你今天才入门，直接从 2025 这一行往下学就是最短路径；前面三行做「读懂老博客 + 不踩坑」用就够。

给我自己的下一步 TODO

完成 Stage 3 的 MCP Server 项目，开源出来
在博客里专门开一个 AI Engineering Notes 分类，记录每个 stage 的踩坑
把现有 K8s 集群接入 vLLM + LiteLLM + Langfuse 的最小生产闭环
用 unsloth 做一次”博客口吻”模型微调，作为 Stage 5 的毕业项目

路线图是死的，节奏是活的。Roadmap 的价值不在”必须按它走”，而在”任何时候迷茫了，知道自己缺哪一块”。共勉。

Career

#AI #Agent #LLM #Roadmap #Career

成为 AI Agent 工程师的学习 Roadmap（2026）

https://gou7ma7.github.io/2026/05/12/career/@2026_ai_learn_roadmap/

作者

Roy Lee

发布于

2026年5月12日

许可协议

这个版本 AI 直接改非结构化文件的水平还是不强势啊 -- 看看原理下一篇

成为 AI Agent 工程师的学习 Roadmap（2026）

0. 总览路线图

Stage 1 · LLM 应用基础（必经之路）

目标

关键概念清单

资源

实战项目

Stage 2 · RAG 与上下文工程

目标

关键概念清单

资源

实战项目

Stage 3 · Agent Harness、Memory Layer 与 Context Engineering（2026 年的核心）

3.1 什么是 Agent Harness？

3.2 Memory Layer：从「塞 vector DB」到独立产品类别

3.3 Context Engineering：取代 Prompt Engineering 的新词

3.4 还要不要学 LangGraph / Pydantic AI？

3.5 资源

3.6 实战项目（按难度递增，全部带 2026 时态）

Stage 4 · 评测、可观测、安全（容易被忽视的”后半场”）

目标

关键概念

资源

实战项目

Stage 5 · 模型微调（LoRA / RLHF / DPO）

目标

关键概念

资源

实战项目

Stage 6 · LLM Platform / Infra（DevOps 同学的主场）

目标

关键概念

资源

实战项目

一些”反 roadmap”的建议

配套书单（可选）

附录：Agent 工程化范式的演进史（2022-2026）

流派一：Prompt Toolbox（2022 末 – 2023 上）

流派二：Multi-Agent 协作框架（2023 下 – 2024 上）

流派三：状态机派 / 图编排（2024）

流派四：类型安全派（2024 末 起）

流派五：Coding Agent 范式（2024 中起爆 → 2026 主流）

流派六：Personal Assistant Harness / 「Claws」（2025 末 – 2026 爆发）

流派七：Meta-Harness / 跨编排（2026 萌芽）

一张图总结

给我自己的下一步 TODO

流派四：类型安全派（2024 末起）