跳转到内容

9.1.4 Agent 能力分级

Agent 能力分级阶梯图

完成本节后,你将能够:

  • 用分层思路描述不同 Agent 的能力边界
  • 区分“会回答”、“会调用工具”、“会多步完成任务”之间的差异
  • 根据任务复杂度选择更合适的系统形态
  • 用一个小例子练习任务所需能力等级判断

因为“Agent”这个词太容易被说大

Section titled “因为“Agent”这个词太容易被说大”

有些系统只是:

  • 会调用一个工具

有些系统则可以:

  • 多步规划
  • 记住状态
  • 协同多个工具

如果都叫 Agent,就会混淆很多概念。

分级的意义在于更诚实地描述系统能力

Section titled “分级的意义在于更诚实地描述系统能力”

它能帮助你回答:

  • 这个系统到底能做什么?
  • 它是稳定工作流,还是灵活智能体?
  • 它的问题更可能出在哪一层?

特点:

  • 能根据输入生成回答
  • 基本不主动调用工具
  • 更像聊天模型

例子:

  • 普通问答机器人
  • 纯 Prompt 生成器

特点:

  • 能根据问题选择一个工具
  • 一次调用后直接回答

例子:

  • 查天气助手
  • 计算器助手
  • 单次检索问答

特点:

  • 会做两步以上动作
  • 能根据中间结果决定下一步

例子:

  • 先查订单,再查退款政策,再给结论
  • 先搜资料,再总结成报告

特点:

  • 接收一个较高层目标
  • 自己组织一段执行流程
  • 可能带状态管理和失败重试

例子:

  • 自动研究助理
  • 自动数据分析助手
  • 自动代码修复流程

更高层能力通常意味着更高风险

Section titled “更高层能力通常意味着更高风险”

特点:

  • 能运行较长任务链
  • 可能调多个工具、多个子 Agent
  • 有记忆、计划、回顾机制

这类系统听起来最酷,但也最难工程化。

能力越高,不代表越适合你的任务

Section titled “能力越高,不代表越适合你的任务”

因为能力提升往往伴随:

  • 成本更高
  • 调试更难
  • 出错路径更多

所以正确思路通常不是“越高越好”,而是:

用刚刚够用的那一级。


等级核心能力典型系统
L0纯回答聊天问答
L1单工具调用天气 / 计算 / 单次检索
L2多步执行先查再算、先搜再写
L3目标驱动研究助理、数据分析助手
L4长时自治 / 多 Agent复杂自动化团队系统

tasks = [
"回答:什么是 RAG?",
"查一下北京天气",
"先查退款政策,再判断我是否满足条件",
"根据销售数据自动生成周报并发邮件"
]
def recommend_level(task):
if "先查" in task and "" in task:
return "L2"
if "自动生成周报" in task or "发邮件" in task:
return "L3"
if "查一下" in task:
return "L1"
return "L0"
for task in tasks:
print(task, "-> 推荐能力等级:", recommend_level(task))

预期输出:

Terminal window
回答:什么是 RAG? -> 推荐能力等级: L0
查一下北京天气 -> 推荐能力等级: L1
先查退款政策,再判断我是否满足条件 -> 推荐能力等级: L2
根据销售数据自动生成周报并发邮件 -> 推荐能力等级: L3

这当然是简化版,但它能帮你建立一个非常实用的习惯:

先判断任务需要哪个能力等级,再决定系统怎么做。


关键是加上:

  • 工具接口
  • 参数生成
  • 工具结果回填

关键是加上:

  • 中间状态
  • 多步执行
  • 动作间依赖

关键是加上:

  • 任务拆解
  • 子目标管理
  • 错误恢复

越往上,越像在做“小型操作系统”。


工程上怎么避免“能力吹过头”?

Section titled “工程上怎么避免“能力吹过头”?”

例如:

  • 最多执行几步
  • 最多调用几个工具
  • 哪些任务必须人工确认

很多系统一开始其实只需要:

  • L1 或 L2

如果一上来就做 L4,往往会陷入:

  • 太复杂
  • 太贵
  • 太不稳

会调一个工具,通常最多只是 L1。

步骤变多,有时只是错误路径变多。

这是很多 Agent 项目难落地的原因之一。


学完这一页,至少保留这张证据卡:

智能体边界
这与聊天机器人或固定工作流有何不同
目标状态动作
目标、当前状态、下一步动作、观察
架构组成
规划器、工具、记忆、护栏、评估器
失败检查
过度自主、目标模糊、状态缺失或没有 trace
下一步动作
构建最小可追踪的单智能体循环

这一节最重要的认识是:

Agent 的能力不是一个开关,而是一条连续的等级带。

学会分级,你就更容易做出稳妥的架构判断,也更不容易被“全自动智能体”这种说法带偏。


  1. 自己列出 5 个任务,给它们分别判断更适合 L0、L1、L2 还是 L3。
  2. 想一想:你的某个真实项目,为什么不一定需要上到 L3 / L4?
  3. 如果一个系统经常调用错工具,它更像是哪个能力层级出了问题?
项目交付参考与讲解
  1. 示例:FAQ 匹配更像 L0;天气查询更像 L1;带政策检索的退款资格判断更像 L2;自动生成周报并发送邮件更像 L3;长期自主运维要根据风险和监督强度判断是 L3 还是 L4。
  2. 很多项目不需要 L3 / L4,因为自主性越高,成本、风险、评测难度和恢复复杂度都会增加。一个更简单的 L1 / L2 系统反而可能更可靠。
  3. 经常调用错工具通常指向 tool use / routing 层:任务分类、工具描述、schema 约束或 observation 解析可能有问题。