Agent设计模式
Nov 8, 2025笔记ai
Agent设计模式
我们可以将智能体(Agent)理解为一个具备自主理解、规划、记忆和工具使用能力的数字化实体。想象一个高度智能的个人助理,你只需告诉他“帮我规划一次去千岛湖的周末旅行”,他就能自主完成以下任务:
- 感知(Perception):理解用户的自然语言指令。
- 规划与推理(Planning & Reasoning):借助模型推理能力,将任务拆解为查询往返机票、筛选酒店、规划景点路线、预估预算等子任务。
- 记忆(Memory):记住你之前的偏好,比如喜欢靠窗的座位、偏爱的经济型酒店。
- 工具(Tool):调用外部工具,如机票预订 API、酒店查询系统、地图服务等,来执行这些子任务。
- 反馈与迭代(Feedback & Iteration):将规划好的行程草案反馈给你,并根据你的修改意见进行调整,最终完成预订。
智能体让 AI 从一个只会内容生成的语言模型,进化成一个具备自主规划能力的行动者。
1、Chain of Thought(思维链)
- 提出背景:Google Research 在 2022 年发表的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》。
- 核心思想:让模型在回答前,把推理过程一步步写出来。不是一口气报出答案,而是把整个推理过程展示出来。
- 场景例子:问小王比小李大 1 岁,小张的年龄是小李的两倍。如果三个人的年龄加起来是 41岁,问小王多大?思维链方式:假设小李的年龄是 x,那么小王 = x + 3,小张 = 2x,总和 = (x + 1) + x + (2x) = 4x + 1,4x + 1 = 41,4x = 38,x = 10,所以小王 = 10 + 3 = 13。结果小王 13 岁。这种方式在逻辑推理、数值计算、逐步分析类问题里,会显得更稳健。
2、Self-Ask(自问自答)
- 提出背景:Microsoft Research 在 2022 年的研究工作《Self-Ask with Search》(https://arxiv.org/abs/2210.03350,https://github.com/ofirpress/self-ask)。
- 核心思想:让模型在回答时学会“反问自己”,把大问题拆成多个小问题,然后逐个回答。
- 场景例子:问2016 年奥斯卡最佳男主角的年龄是多少?Self-Ask 会先问:2016 年奥斯卡最佳男主是谁?(答:李奥纳多·狄卡比奥),再问他当时多大?(答:41 岁),最后组合答案。这种方式特别适合事实链路长的问题。
3、Reflection / Self-Critique Loop(反思/自我批评循环)
提出背景:论文 《Self‑Reflection in LLM Agents: Effects on Problem‑Solving Performance(Renze & Guven, 2024)》提出让大语言模型(LLM)在回答后反思自己的错误并修正。另外,框架 Reflexion(Shinn et al., 2023)提出语言代理通过“口头强化(verbal reinforcement)”方式记忆反思([https://arxiv.org/abs/2303.11366])(https://arxiv.org/abs/2303.11366))。
- 核心思想:在模型输出答案之后,主动让模型“回顾”其推理或行动过程,识别可能的错误/偏差,然后基于反思内容生成修正或改进版答案。类似“生成 → 检查 →修正”的循环。
- 场景例子:你让 Agent 撰写一份技术方案或代码片段:首先模型给出版本 A;然后进行反思:「我可能漏掉了异常处理 X」;然后生成版本 B 加入异常处理。结果输出版本 B 更健壮。
4、ReAct(推理 + 行动)
- 提出背景:Princeton 与 Google Research 在 2022 年论文《ReAct: Synergizing Reasoning and Acting in Language Models》(https://research.google/blog/react-synergizing-reasoning-and-acting-in-language-models/)。
- 核心思想:在推理(Reasoning)和外部行动(Acting,比如调用搜索引擎或 API)之间交替进行。ReAct 比 CoT、Self-Ask 更全能,原因在于它不仅是推理模式,还内建了与外部世界交互的闭环。
- 场景例子:问杭州昨天的天气?ReAct 会先想:“我不知道昨天的天气,需要查询”,然后执行“调用天气 API”,再推理并回答。这让 Agent 既有思维,又能动手。
5、Plan-and-Execute(计划与执行)
- 提出背景:出现在 2023 年前后的 Agent 应用开发框架实践(如 LangChain 社区),参考https://aclanthology.org/2023.acl-long.147.pdf、https://blog.langchain.com/planning-agents/。
- 核心思想:把任务拆成两个阶段,先生成计划(Planning),再逐步执行(Execution)。
- 场景例子:假设你让 Agent 写一篇“新能源车的市场调研报告”,它不会直接生成报告,而是先拟定计划:收集销量数据,分析政策趋势,总结消费者反馈,撰写结论。然后逐条执行。适合多步骤、需长时间任务的场景。
6、Tree of Thoughts (ToT,树状思维)
- 提出背景:Princeton 和 DeepMind 在 2023 年的论文《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》。
- 核心思想:不是单线思维,而是生成多条思路分支,像树一样展开,再通过评估机制选出最佳分支。
- 场景例子:解一道数独时,Agent 会尝试多个候选解法(分支 A、B、C),逐步排除错误分支,最终选出唯一解。适合复杂规划和解谜任务。
7、Multi-Agent / Collaboration 模式
- 提出背景:综述论文 《Multi‑Agent Collaboration Mechanisms: A Survey of LLMs(Tran et al., 2025)》专门对 LLM 为基础的多代理系统进行了归纳。 此外,研究 Scaling Large Language Model‑based Multi‑Agent Collaboration(Qian et al., 2024/25)探讨了代理数量扩展的协作效应。
- 核心思想:将多个 Agent(每个可能具备不同角色/能力)组合起来协作,通过分工、沟通、协调完成比单一 Agent 更复杂的任务。可以有“专门角色 Agent”“监督 Agent”“执行 Agent”等。
- 场景例子:一个市场调研任务:Agent A 负责数据采集,Agent B 负责数据分析,Agent C 负责报告撰写。三者协作完成整体任务,比一个 Agent 从头做更高效、更模块化。
8、World-Model / Simulation Pattern(世界模型/模拟推演)
- 提出背景:论文 《Is Your LLM Secretly a World Model of the Internet? Model‑Based Planning for Web Agents(Gu et al., 2024)》提出让 LLM 担任世界模型来预测动作后果。 另一个相关框架 Reasoning with Language Model is Planning with World Knowledge Model(Hao et al., 2023)也讨论了基于状态模拟的推理结构。
- 核心思想:在模型真正执行行动之前,先在一个「内在世界模型/模拟环境」中,对可能的动作路径进行推演、预测后果,然后选择最优策略再执行。
- 场景例子:Agent 需要在网页中执行一系列操作(比如填写表格、点击按钮、获取结果) — 它先在模拟环境中预测「如果我先点击 X,再输入 Y,会得到啥?」「或者我先输入 Y,再点击 X 会怎样?」然后选最优顺序正式执行真实操作。
9、Meta-Planning / Hierarchical Agent 模式
- 提出背景:论文 《Interactive Planning with Large Language Models Enables General Agent Automation(Wang et al., 2023)》探讨了用 LLM 作为规划器 + 执行者的双层结构。 虽然“Meta-Agent”这个具体标签较少,但这种“规划层 + 执行层”架构正在成为趋势。
- 核心思想:在系统中引入“元代理”(Meta-Agent)负责战略规划、目标拆解;底层多个子代理或模块负责执行具体子任务。系统结构分层:最高层负责“做什么”“为什么做”,下一层负责“怎么做”“谁做”。
- 场景例子:你让 Agent 完成一个“产品上线发布”任务:Meta-Agent 制定计划(调研 → 开发 → 测试 → 上线),然后各子模块 Agent 分别执行(调研 Agent、开发 Agent、测试 Agent、部署 Agent)。Meta-Agent 在必要时重新协调更新计划。
10、Graph-/Tree-Expansion 推理模式(“图思维/树思维” 的扩展)
- 提出背景:Tree of Thoughts: Deliberate Problem Solving with Large Language Models(Yao et al., 2023)是树状思维基础,但后续有论文如 《SimuRA: Towards General Goal‑Oriented Agent via Simulative Reasoning Architecture with LLM‑Based World Model(Deng et al., 2025)》采用“图(Graph)”形式的思维扩展。
- 核心思想:不仅生成一条思路(线性链),也不是仅树状,而是“图状”展开多个候选思路/路径(节点=状态/想法,边=转换),然后通过评估机制选出最佳路径。比简单树状更灵活,适用更大解空间。
- 场景例子:Agent 解决一个复杂规划问题(如多步跨部门项目、谜题或游戏)。它首先展开多个可能路径(例如路径 A、B、C …),在每个路径内部再展开子分支;通过评估机制(成本、风险、收益)最终选中一个最优路径执行。
11、Tool-Chain Agent(工具链式智能体)
- 提出背景:这一模式由 LangChain、OpenDevin、AutoGPT 等框架实践逐步形成;学术上相关研究如 Toolformer: Language Models Can Teach Themselves to Use Tools(Schick et al., Meta AI, 2023)奠定了让 LLM 自学使用外部工具的基础。LangChain Agents 文档示例:https://python.langchain.com/docs/modules/agents/
- 核心思想:让 Agent 不仅能调用单一工具,而是构建和执行一个工具调用链(Tool → Tool → Tool)。Agent 会根据任务自动选择合适的外部接口或函数,形成“计划—调用—验证”的流水线。
- 场景例子:例如一个数据分析 Agent:1.调用爬虫 API 抓取数据;2.调用 Python 计算函数分析结果;3.再调用 chart API 绘制图表;4.最后生成报告。整个过程像流水线一样由 Agent 自动调度完成。
12、Memory-Augmented Agent(记忆增强型智能体)
- 提出背景:来源于 Generative Agents: Interactive Simulacra of Human Behavior(Park et al., Stanford University, 2023)——该论文展示了 Agent 拥有长期记忆、短期记忆和反思能力的行为模拟系统。同类框架包括 MemGPT(2023)与 LangGraph(2024)均实现了可读写的记忆组件。
- 核心思想:给 Agent 加入可持久化的“记忆系统”,使其能从历史交互中提取经验并在未来决策中使用。记忆可分为:
- 短期记忆(Working Memory):当前会话上下文;
- 长期记忆(Episodic Memory):跨会话持久信息;
- 反思记忆(Reflective Memory):自我总结与知识抽象。
场景例子:例如一个个人助理 Agent,你昨天让它订酒店,今天让它订机票,它会记得你昨天的出行目的地,从而自动推荐匹配的航班与时间,而不是“重头问起”。
13、Self-Evolution / Self-Improvement Agent(自我进化型智能体)
- 提出背景:源自开源项目 EvoAgent(2024)与论文 Evolving Agents: Autonomously Improving via Evaluation and Mutation(Liu et al., 2024)。该方向强调让 Agent 自动评估自身表现并演化出更优版本。GitHub 项目:https://github.com/openbmb/EvoAgent
- 核心思想:Agent 拥有“自我评估—优化—再训练”能力:1.先执行任务并记录结果;2.对自身行为进行评估;3.基于反馈进行参数或策略变异;4.生成改进版 Agent。类似于强化学习中的“自举改进(bootstrapped improvement)”,但通过语言层完成。
- 场景例子:一个写作 Agent 自动撰写文章后,分析自己哪些部分得分低,再基于评估规则改进提示、调整风格或参考示例,最终进化出更高质量输出版本。
总结一下,这些认知框架,其实构成了 Agent 世界里的思维模式库:
- CoT:一步步写出推理过程
- Self-Ask:把大问题拆成小问题逐步回答
- ReAct:边推理边行动,与外部世界交互
- Plan-Execute:先生成计划,再按步骤执行
- ToT:多分支探索思路,选最优路径
- Reflexion:自我反思并改进输出
- Multi-Agent:多角色协作分工完成复杂任务
- World-Model:先在模拟世界推演,再决定行动
- Meta-Planning:分层规划,顶层统筹子任务执行
- Graph-of-Thoughts:图状展开多路径推理与评估
- Tool-Chain:串联多个工具形成调用流水线
- Memory-Agent:具备短期与长期记忆的持续学习
- Self-Evolution:自动评估与迭代优化自身能力
它们并不是互斥的,可以混搭使用,理解这些模式,能让我们在应用开发框架选型和使用时,想的更为透彻,一些设计模式,例如 ReAct,已经被 LangChain、LlamaIndex、Dify、Spring AI Alibaba 等 Agent 开发框架内置成基础框架,帮助开发者提升模型的调用效果。
Agent 的应用开发框架天然就很难收敛。不同的框架都有自己的设计模式哲学,只要定位清晰,都能获得一部分开发者群体的青睐,一家独大的情况很难出现。
另外推荐今年一本关于Agent设计模式的书:《Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems》
Author
My name is Micheal Wayne and this is my blog.
I am a front-end software engineer.
Contact: michealwayne@163.com