战胜裸跑的 GPT-4
从 20% 飙升至 90%+
同时提升准确率
吴恩达(Andrew Ng): "一个较弱的模型加上良好的 Agentic Workflow,往往能战胜一个没有 Workflow 的顶尖模型。"
| 传统 LLM 应用 | 典型问题 | 现实场景 |
|---|---|---|
| ❌ 一次性输出 | LLM 生成的代码一运行就报错 | 需要反复复制粘贴到对话框,让 AI 重新生成 |
| ❌ 幻觉频发 | 长篇报告编造数据,无法验证真实性 | 研究报告中出现不存在的数据和引用 |
| ❌ 数学能力差 | 数据分析场景算错基础运算 | 简单的加减乘除都可能出错 |
| ❌ 无法行动 | 客服只能回答问题,不能真正解决问题 | 用户想退款,AI 只能告诉流程,无法执行操作 |
问题的根源不在于模型不够强,而在于没有给它正确的工作流程。
AI 领域从 2024 年到 2025 年最重要的范式转变
核心概念: 不再追求让大模型(LLM)一次性生成完美答案(Zero-shot),而是构建一个循环系统,让模型像人类一样,通过多次迭代、自我反思、使用工具和分步骤规划来解决复杂问题。
| 特性 | 传统 LLM 交互 (Zero-shot) | Agentic Workflow (代理工作流) |
|---|---|---|
| 模式 | 输入 → 输出 (一次性) | 循环迭代 (Loop) |
| 思维方式 | 直觉式反应 (快思考) | 审慎式推理 (慢思考) |
| 容错率 | 一次出错,全盘皆输 | 允许出错,自我修正 |
| 角色定位 | 像一个被动的"百科全书" | 像一个主动的"项目经理"或"员工" |
| 适用场景 | 闲聊、简单问答、翻译 | 编写代码、撰写长篇报告、复杂数据分析 |
在 2025 年的开发实践中的关键设计模式(Design Patterns)
生成初稿 → 自我批评 → 根据反馈修改
Agent: 生成代码
Agent: "这段代码没有处理除以零异常"
Agent: 重新生成包含异常处理的代码
识别意图 → 调用外部工具 → 整合结果
User: "查昨天特斯拉股价并画图"
Agent: yahoo_finance_api.get_price("TSLA")
Agent: matplotlib.plot(data)
Agent: "图表已生成"
拆解目标 → 生成步骤序列 → 逐一执行
User: "写一个网页游戏"
Plan: [HTML, CSS, JS, 测试]
Execute: 按计划逐步完成
主控分发任务 → 专家各司其职 → 汇总结果
PM_Agent: 写需求文档
Dev_Agent: 写代码
QA_Agent: 测试并反馈错误
Dev_Agent: 修复 → 循环直到通过
在 Agentic Workflow 出现之前,提升 AI 效果主要靠"把模型做大"(Scaling Law),这不仅昂贵而且边际效应递减。
Agentic Workflow 证明了:通过流程工程(Flow Engineering),可以用更小、更便宜的模型达到极高的准确率。
模型不会写 SQL → 收集 1000 条 SQL 数据去 Fine-tune 模型
(成本高、周期长、泛化能力差)
模型不会写 SQL → 构建 Workflow:
1. 让模型先理解数据库 Schema
2. 再写 SQL
3. 在测试库里运行
4. 如果报错就把 Error Message 喂回给模型重写
(成本低、见效快、适应性强)
结论:优先优化 Workflow,最后再考虑 Fine-tuning。
传统 AI 只能"说",Agentic AI 能"做"。这是企业级 AI 从"咨询顾问"向"数字员工"转型的关键。
基于 Agentic Workflow 的核心优势(循环迭代、工具使用、自我反思)
成功率:20% → 90%+
Coder 编写代码 → Executor 沙箱运行 → 捕获错误 → 自动修复 → 循环直到成功
代表产品: Devin, Github Copilot Workspace
核心价值: Test-Driven Development (TDD) 自动化
突破 Token 限制,保证真实性
Planner 拆解章节 → Researcher 检索资料 → Writer 撰写内容 → Reviewer 审核修改
典型任务: 2025年新能源汽车出海泰国市场分析
核心价值: 产出"专家级"长文,保证事实准确性
语言理解 + 计算能力完美结合
Agent 生成 Python 代码 → 执行器运行分析 → 生成图表 → 撰写分析报告
代表产品: OpenAI Code Interpreter, Jupyter AI
核心价值: 解决 LLM 算数差、逻辑推理不严谨的问题
从"咨询顾问"到"数字员工"
检索知识库 → 查询订单状态 → 调用退款API → 发送确认邮件 → 完成业务办理
适用行业: 电商、金融、政务服务
核心价值: 实现 Action(行动),真正解决问题
虽然 Agentic Workflow 很强,但它有 延迟(Latency) 和 成本(Cost) 的代价。
选择合适的框架快速开始构建 Agentic Workflow
核心:图(Graph)与状态机
功能:持久化、人工介入、可观测性、完美控制循环流程
应用场景:需要精细流程控制的复杂工作流、长任务处理
推荐语言:Python / JavaScript
📖 官方文档核心:事件驱动(Event-Driven)
功能:RAG无缝集成、异步并发、数据处理流水线
应用场景:RAG应用、知识库检索、高并发数据处理
推荐语言:Python / TypeScript
📖 官方文档核心:企业级插件系统(Microsoft)
功能:企业合规性、ERP/CRM集成、强大的规划器
应用场景:企业级应用、现有系统集成、.NET技术栈
推荐语言:C# / Python
📖 官方文档Andrew Ng(吴恩达): "一个较弱的模型加上良好的 Agentic Workflow,往往能战胜一个没有 Workflow 的顶尖模型。"
这句话揭示了一个深刻的洞察:提升 AI 能力的关键,不在于无限扩大模型规模,而在于设计更好的工作流程。
视频标题: What's next for AI agentic workflows ft. Andrew Ng of AI Fund
频道: Sequoia Capital(红杉资本)
链接: https://www.youtube.com/watch?v=sal78ACtGTc
简介: 这是吴恩达关于 Agentic Workflow 最经典的一场演讲。他深入浅出地解释了为什么仅仅追求更强的模型不如设计更好的工作流有效。他提出了四种关键的代理设计模式:Reflection(反思)、Tool Use(工具使用)、Planning(规划)和 Multi-agent collaboration(多智能体协作)。非常适合作为入门和建立底层逻辑的视频。
视频标题: 【AI教程】6个案例带你真正搞懂AI工作流/AI Agent 突破大语言模型的能力上限
频道: 木子不写代码
链接: https://www.youtube.com/watch?v=YdnolQrG-xE
简介: 这个视频非常实战。UP主通过6个具体的案例来拆解什么是 AI Agent 和 Workflow。相比于纯理论,这个视频更能让你看到 Agentic Workflow 在实际应用(比如自动化任务、复杂问题解决)中是如何落地的,非常适合想动手的开发者或进阶用户。
视频标题: Agentic AI、Agentic Workflow、AI Agents 一次搞清楚2025最热門的AI術語
频道: Yulandy Chiu的AI觀測站
链接: https://www.youtube.com/watch?v=keIW7A_pDao
简介: 这是一个很好的概念扫盲视频。如果你对 Agentic AI、Agentic Workflow 和 AI Agents 这些术语感到混淆,这个视频能帮你清晰地梳理它们之间的区别和联系,构建清晰的知识地图。
视频标题: the n8n killer? AGENTIC WORKFLOWS: Full Beginner's Guide
频道: Nick Saraev
链接: https://www.youtube.com/watch?v=bA-WmidVSGo
简介: 这是一个面向初学者的完整指南,侧重于如何构建实际的自动化工作流。Nick Saraev 会介绍如何使用 n8n 或类似的低代码/无代码工具来搭建具有 Agentic 能力的系统。如果你想从理论走向实践,搭建自己的自动化 AI 员工,这个视频很有参考价值。
# 安装 LangGraph(推荐从这里开始)
pip install langgraph langchain langchain-openai
# 或者安装 AutoGen
pip install pyautogen
import os
os.environ["OPENAI_API_KEY"] = "your-api-key-here"
使用前面展示的最小化代码示例,实现一个自动修复 Bug 的 Agent。
A: 是的,因为需要多轮调用。但对于复杂任务,这种"慢思考"带来的准确率提升远超时间成本。
具体数据:
结论: 不适合实时对话场景(如闲聊),非常适合复杂任务(如代码生成、深度分析)。
A: 不。简单任务应继续使用传统 Prompt Engineering,避免过度设计。
判断标准:
✅ 适合用 Agentic Workflow:
❌ 不适合用 Agentic Workflow:
A: 这正是它的优势所在!GPT-3.5 级别的模型配合良好工作流,效果可超过裸跑的 GPT-4。
成本对比:
A: 三重保险机制:
1. 设置 max_iterations 限制
max_retries = 3 # 最多3次
retry_count = 0
while retry_count < max_retries:
# 执行任务
retry_count += 1
2. 实现 State 管理,避免上下文无限增长
# 只保留最新的错误信息
state['error'] = latest_error # 而不是累积所有错误
3. 使用监控工具追踪成本
问题: 多轮循环后,Prompt 会变得巨长,极其消耗 Token 费用。
✅ 解决方案: 需要管理 State,在每一轮迭代中只保留必要的信息。例如:只保留最近一次报错,丢弃之前的错误历史。
# 错误的做法:
context = context + new_error # 越来越长
# 正确的做法:
context = latest_error # 只保留最新的
问题: Agent 之间通信需要精准,自由文本容易出错。
✅ 解决方案: 强制模型输出 JSON 格式(OpenAI 的 Structured Outputs 或 Pydantic),而不是自由文本。
from pydantic import BaseModel
class CodeOutput(BaseModel):
code: str
explanation: str
needs_review: bool
# 强制 LLM 输出符合这个结构
A: 主流框架主要支持:
| 语言 | 支持的框架 |
|---|---|
| Python | LangGraph, AutoGen, LlamaIndex, Semantic Kernel |
| JavaScript/TypeScript | LangGraph.js, LlamaIndex.ts |
| C# | Semantic Kernel (微软官方支持) |
推荐: 如果你是 AI 开发新手,从 Python + LangGraph 开始是最佳选择。
A: 优先顺序:
第一步:Prompt Engineering(成本最低)
↓ 如果效果不够
第二步:Agentic Workflow(中等成本,高灵活性)
↓ 如果还不够
第三步:Fine-tuning(高成本,但效果最稳定)
实际案例: 让 AI 写 SQL 查询
结论: 大部分场景下,方法2(Agentic)就足够了。