对 AI 应用开发的一些思考

不要过度关注“用 AI 开发应用/工具”，而要盯着“AI 正在怎样改变应用本身的形态”。
实际需要不断积累全前沿的技术，未来的开发范式是怎么样的，因为这条路永远是在追求更聪明的智能体。

不要过度关注“用 AI 开发应用/工具”

现在很多人理解的 AI 应用还是：“我用大模型接个 API，做个工具。”
但真正值得长期积累的是：未来软件会不会从‘人点按钮的软件’，变成‘能理解目标、拆解任务、调用工具、自己执行、自己校正的智能系统’。

因为“用 AI 做工具”很容易变成短期红利，比如：

“AI 简历优化器”
“AI 文案生成器”
“AI 视频脚本助手”
“AI 数据分析助手”
“AI 股票复盘助手”

这些当然能做，但问题是：如果只是壳子 + Prompt + API，本质壁垒很低。别人很快能抄，模型厂商也可能直接内置。所以真正有价值的不是“我做了一个 AI 工具”，而是：

我理解了某个行业流程，并且知道 AI 应该嵌入流程的哪个位置，替代哪一段人力，增强哪一段判断，沉淀哪一类数据。

也就是说，未来 AI 应用的核心竞争力不是：会不会调用大模型。而是：能不能把模型变成业务流程的一部分。

更值得积累的是“未来开发范式”

实际需要不断积累前沿技术，未来的开发范式是怎么样的，因为永远是在追求更智能化的 Agent

这个可以继续拆成一条演进线：

第一阶段：Chatbot / 问答式 AI

最早是“你问，我答”。特点是：用户输入问题，模型输出答案。
本质还是一个增强版搜索/问答工具。

问题是：
它不会主动做事，也不会真正进入业务流程。

第二阶段：Reasoning / Chain of Thought / 深度推理

然后模型开始从“直接回答”走向“分步骤推理”。

这里的重点不是表面上的“展示思考过程”，而是模型能力开始从：语言生成，变成：问题拆解、逻辑推理、计划生成、复杂任务处理。

这会影响开发范式。以前开发软件，是程序员把流程写死：用户点 A → 系统执行 B → 返回 C。

但未来可能是：用户说一个目标 → 模型自己判断应该查数据、调用工具、生成方案、让用户确认、再执行。

也就是说，软件不再只是“固定流程”，而是开始具备“动态规划能力”。

第三阶段：RAG / Tool Use / Function Calling

再往后，模型开始接外部知识和工具。比如：

查数据库
读文档
调用 API
操作浏览器
调用代码执行器
读表格
连接企业系统

这一步非常重要，因为它让 AI 从“会说”变成“会用工具”。

OpenAI 在 Agents 相关工具中也强调了工具调用、handoffs、guardrails 等能力，用来构建更完整的 agentic applications。

所以未来开发者的能力不只是写接口，而是要设计：

模型什么时候该自己回答，什么时候该查资料，什么时候该调用工具，什么时候必须让人确认，什么时候要拒绝执行。

这就是 AI 工程能力。

第四阶段：Workflow / Agentic Workflow

这一步是现在特别值得关注的。

Anthropic 对 AI agent 的工程化总结里，把系统从简单的 augmented LLM，逐步扩展到 workflows 和 agents；它也提醒，不是所有任务都需要复杂 agent，很多生产场景更适合可控的 workflow。这点非常重要。

很多人一上来就说“我要做 Agent”，但真正落地时，很多场景并不需要完全自主的 Agent，而是需要：

固定流程 + 局部智能判断。

比如：简历筛选系统，不是让 Agent 自由乱跑，而是：读取 JD → 解析候选人简历 → 匹配硬条件 → 标记风险点 → 给面试建议 → 人工确认。

AI 视频生成流程也不是一句话生成成片，而是：选题 → 脚本 → 分镜 → 人设 → 提示词 → 抽卡 → 筛片 → 剪辑 → 复盘。

大模型测评流程
也不是简单打分，而是：任务构造 → 样本抽取 → 模型输出 → 裁判模型评分 → 人工校准 → 指标分析 → badcase 归因。

所以你真正要积累的是：如何把一个复杂任务拆成稳定工作流，并判断哪些节点适合交给模型。

第五阶段：Agent / 自主执行系统

Agent 的本质不是“会聊天”，而是：给它目标，它能自己规划、调用工具、观察结果、调整行动，直到完成任务。

Google 的 Gemini Computer Use 文档就提到，Computer Use 可以让模型通过截图“看见”屏幕，并生成鼠标点击、键盘输入等 UI 操作，用于构建能操作浏览器或界面的 agent。

这说明一个趋势：未来 AI 不只是接 API。它可能直接操作软件界面。

这会改变应用开发。以前是：人操作软件。以后可能是：人提出目标，Agent 操作软件。

比如：“帮我整理过去三个月的招聘数据，找出转化率最低的岗位。”

Agent 可能自己打开后台、导出表格、分析数据、生成报告。

这时候，软件的价值不再只是 UI 好不好用，而是：能不能被 Agent 理解、调用、协作。

第六阶段：多 Agent / 组织化智能

再往后，单个 Agent 可能不够，会出现多个 Agent 分工。

比如：

一个负责搜索资料
一个负责代码实现
一个负责测试
一个负责审查
一个负责生成报告

OpenAI Agents SDK 里面的 handoffs 也是类似思路：不同 agent 之间可以进行任务交接；Anthropic 的 agent 文章也讨论了单 agent、多 agent 和 agentic workflow 的架构模式。

但这里也要警惕：多 Agent 不是越多越好。

很多多 Agent 项目失败，是因为：

协调成本高
上下文丢失
错误互相传染
结果不可控
调试困难

所以未来真正稀缺的能力是：不是会搭很多 Agent，而是知道什么时候不该用 Agent。

第七阶段：自我改进 / Agentic RL / Evaluation-driven Development

后面可以继续往这个方向想：未来 AI 应用不只是“写完上线”，而是持续自我优化。

比如：

系统记录每次失败案例
分析失败原因
调整提示词
更新工具调用策略
优化检索数据
改进评分规则
引入强化学习或偏好优化

之前也看过 Agentic RL，这里其实就接上了。

传统软件开发是：需求 → 开发 → 测试 → 上线。

AI 应用开发可能变成：任务 → 生成 → 评测 → 反馈 → 优化 → 再生成。

所以未来开发范式里，评测能力会变得非常重要。

因为模型不是确定性系统。
你不能只问“这个功能能不能跑”，还要问：

在 1000 个样本里表现如何？
失败集中在哪些类型？
模型有没有幻觉？
工具调用是否稳定？
多轮任务是否退化？
成本是否可控？
延迟是否可接受？
用户是否信任结果？

所以如果考虑“大模型测评工程师”这个方向，它未必只是打分岗位。更上层来看，它其实对应未来 AI 工程里的一个核心能力：用系统化评测驱动 AI 应用迭代。

想法整理

不应该只关注“用 AI 快速做一个应用/工具”，因为这类应用如果只是套壳、Prompt、API，长期壁垒有限。真正应该关注的是 AI 正在如何改变软件开发范式：从问答式模型，到具备推理能力的模型，再到能调用工具、接入知识库、执行工作流、完成任务的 Agent 系统。

未来的开发可能不再是单纯写固定逻辑，而是设计“人—模型—工具—数据—评测”协同的智能系统。开发者的核心能力也会从写功能，转向拆解任务、设计工作流、构建工具接口、控制模型行为、评估结果质量、持续优化系统表现。

所以需要持续积累的不是某一个 AI 工具，而是底层范式：RAG、Tool Use、Workflow、Agent、多 Agent、模型评测、数据闭环、Agentic RL，以及 AI 如何真正嵌入具体业务流程。

可以把你的长期方向概括成一句话：

不要只做“AI 应用的使用者”或“套壳开发者”，而要理解 AI 应用背后的新型工程范式：让模型从回答问题，走向理解任务、调用工具、执行流程、接受评测并持续进化。

不要陷入“AI 小工具开发者”的低阶内卷

现在很多 AI 应用的本质是：Prompt + API + 套壳界面 + 简单业务包装。

比如：AI 写作工具、AI 简历工具、AI 表格分析工具、AI 视频脚本工具、AI 总结工具。

这些东西不是不能做，而是如果只停留在这一层，长期壁垒非常弱。

因为它的问题在于：功能容易被复制，模型能力由平台决定，用户数据沉淀不足，业务流程嵌入不深。

所以这类应用很容易变成：

别人抄你的功能；
大厂直接内置；
模型升级后原来的优势消失；
用户只把它当临时工具，而不是工作流入口。

真正危险的不是“做 AI 应用”，而是：只会做浅层 AI 应用，却误以为自己掌握了 AI 时代的核心能力。

二、核心不是“做不做应用”，而是做哪一层应用

这里可以做一个分层。

第一层：AI 工具层

特点是：用户给一个输入，模型返回一个结果。比如：

写一段文案；总结一篇文章；生成一张图；优化一份简历。

这一层门槛最低，竞争最激烈。

第二层：AI 工作流层

特点是： AI 不只是生成结果，而是嵌入一个完整流程。比如：

AI 视频生产流程：选题 → 脚本 → 分镜 → 人物设定 → 提示词 → 画面生成 → 抽卡 → 剪辑 → 数据复盘。
AI 招聘流程：JD 解析 → 简历筛选 → 候选人打分 → 面试问题生成 → 风险点提示 → 面试反馈汇总。
AI 测评流程：任务设计 → 样本构造 → 模型输出 → 裁判评分 → badcase 归因 → 指标分析 → 优化建议。

这一层开始有壁垒，因为它不只是“调用模型”，而是理解行业流程。

第三层：AI Agent 系统层

特点是：用户只给目标，系统自己拆解任务、调用工具、执行流程、观察结果、修正策略。

比如用户说：“帮我分析过去三个月短视频账号为什么流量下滑，并给出下周选题计划。”

真正的 Agent 系统应该能：

读取数据；
识别趋势；
拆解影响因素；
对比爆款内容；
生成选题；
预测风险；
安排执行顺序；
根据反馈继续迭代。

这一层的核心不是 Prompt，而是：任务规划、工具调用、记忆系统、状态管理、评测机制、异常处理、权限控制。

第四层：AI 组织层 / 多 Agent 协作层

未来更进一步，可能不是一个 Agent 做所有事，而是多个智能角色协作。比如：

产品 Agent 负责理解需求；
研发 Agent 负责写代码；
测试 Agent 负责找 bug；
数据 Agent 负责看指标；
运营 Agent 负责生成增长方案；
审查 Agent 负责风险控制。

这时开发者不再只是写代码，而是在设计一个“智能组织”。

三、未来开发范式的变化，重点不是“代码消失”，而是“代码角色变化”

未来不是完全不写代码，而是代码从“写死业务流程”变成：定义边界、提供工具、控制权限、管理状态、验证结果。

也就是说，开发者的职责会变化。以前开发者写的是：用户点按钮 A，系统执行逻辑 B，返回结果 C。未来开发者写的是：

这个任务的目标是什么；
哪些步骤可以让模型判断；
哪些步骤必须写死；
模型能调用哪些工具；
什么情况要人工确认；
什么结果算成功；
失败后怎么重试；
如何记录过程；
如何评估质量。

所以未来软件工程会越来越像：架构设计 + 流程编排 + 智能体管理 + 评测系统。

四、真正应该积累的不是“工具清单”，而是“范式能力”

模型理解能力

包括：

大模型为什么会推理；
上下文窗口如何影响输出；
幻觉为什么产生；
CoT、ReAct、Tree of Thought、Self-Reflection 这些方法解决什么问题；
不同模型在推理、代码、多模态、工具调用上的差异。

这决定你能不能判断：什么任务适合交给模型，什么任务不适合。

任务拆解能力

这是 Agent 时代最重要的能力之一。不是用户说一句话，你就直接丢给模型，而是要能拆成：

目标；
输入；
约束；
步骤；
工具；
中间状态；
成功标准；
失败处理。

比如“做一份行业分析报告”，不能直接让模型生成，而要拆成：资料收集 → 信息清洗 → 观点提炼 → 结构生成 → 数据验证 → 风险检查 → 输出成稿。

这才是 AI 系统设计。

工具与数据连接能力

模型本身只是大脑，但它需要手脚和外部记忆。所以要积累：

RAG；
知识库；
数据库查询；
API 调用；
浏览器操作；
代码执行；
文件读取；
表格分析；
权限系统；
外部工具编排。

核心问题是：如何让模型可靠地使用外部世界，而不是只在文本里幻想。

评测与反馈能力

这是可以重点放大的部分。

AI 应用和传统应用最大的区别是：传统应用更多是确定性逻辑；AI 应用是概率性输出。

所以不能只看“能不能跑”，而要看：

准确率；
稳定性；
一致性；
幻觉率；
工具调用成功率；
多轮任务完成率；
成本；
延迟；
用户满意度；
badcase 分布。

未来优秀 AI 工程师一定要懂评测。因为没有评测，就没有可靠迭代。测评不是边缘岗位，而是 AI 系统工程里的核心环节。

产品与业务抽象能力

最后一类最容易被忽视。

AI 不是脱离业务存在的。真正有价值的 AI 系统，一定是嵌入具体场景的。

比如：招聘、教育、金融、短视频、游戏、客服、医疗、法律、企业管理。要看懂：

这个行业的核心流程是什么；
哪一步最耗人力；
哪一步最依赖经验；
哪一步可以自动化；
哪一步必须人工把关；
数据在哪里沉淀；
用户为什么愿意长期使用。

这决定做出来的是“玩具”，还是“系统”。