公开笔记

对 AI 应用开发的一些思考

AI 应用开发热潮下的一些个人反思

发布于 更新于
  • 不要过度关注“用 AI 开发应用/工具”,而要盯着“AI 正在怎样改变应用本身的形态”。
  • 实际需要不断积累全前沿的技术,未来的开发范式是怎么样的,因为这条路永远是在追求更聪明的智能体。

不要过度关注“用 AI 开发应用/工具”

现在很多人理解的 AI 应用还是:“我用大模型接个 API,做个工具。”
但真正值得长期积累的是:未来软件会不会从‘人点按钮的软件’,变成‘能理解目标、拆解任务、调用工具、自己执行、自己校正的智能系统’。

因为“用 AI 做工具”很容易变成短期红利,比如:

“AI 简历优化器”
“AI 文案生成器”
“AI 视频脚本助手”
“AI 数据分析助手”
“AI 股票复盘助手”

这些当然能做,但问题是:如果只是壳子 + Prompt + API,本质壁垒很低。别人很快能抄,模型厂商也可能直接内置。所以真正有价值的不是“我做了一个 AI 工具”,而是:

我理解了某个行业流程,并且知道 AI 应该嵌入流程的哪个位置,替代哪一段人力,增强哪一段判断,沉淀哪一类数据。

也就是说,未来 AI 应用的核心竞争力不是:会不会调用大模型。而是:能不能把模型变成业务流程的一部分。

更值得积累的是“未来开发范式”

实际需要不断积累前沿技术,未来的开发范式是怎么样的,因为永远是在追求更智能化的 Agent

这个可以继续拆成一条演进线:

第一阶段:Chatbot / 问答式 AI

最早是“你问,我答”。 特点是:用户输入问题,模型输出答案。
本质还是一个增强版搜索/问答工具。

问题是:
它不会主动做事,也不会真正进入业务流程。

第二阶段:Reasoning / Chain of Thought / 深度推理

然后模型开始从“直接回答”走向“分步骤推理”。

这里的重点不是表面上的“展示思考过程”,而是模型能力开始从:语言生成,变成:问题拆解、逻辑推理、计划生成、复杂任务处理。

这会影响开发范式。以前开发软件,是程序员把流程写死:用户点 A → 系统执行 B → 返回 C。

但未来可能是:用户说一个目标 → 模型自己判断应该查数据、调用工具、生成方案、让用户确认、再执行。

也就是说,软件不再只是“固定流程”,而是开始具备“动态规划能力”。

第三阶段:RAG / Tool Use / Function Calling

再往后,模型开始接外部知识和工具。比如:

查数据库
读文档
调用 API
操作浏览器
调用代码执行器
读表格
连接企业系统

这一步非常重要,因为它让 AI 从“会说”变成“会用工具”。

OpenAI 在 Agents 相关工具中也强调了工具调用、handoffs、guardrails 等能力,用来构建更完整的 agentic applications。 

所以未来开发者的能力不只是写接口,而是要设计:

模型什么时候该自己回答,什么时候该查资料,什么时候该调用工具,什么时候必须让人确认,什么时候要拒绝执行。

这就是 AI 工程能力。

第四阶段:Workflow / Agentic Workflow

这一步是现在特别值得关注的。

Anthropic 对 AI agent 的工程化总结里,把系统从简单的 augmented LLM,逐步扩展到 workflows 和 agents;它也提醒,不是所有任务都需要复杂 agent,很多生产场景更适合可控的 workflow。 这点非常重要。

很多人一上来就说“我要做 Agent”,但真正落地时,很多场景并不需要完全自主的 Agent,而是需要:

固定流程 + 局部智能判断。

比如:简历筛选系统,不是让 Agent 自由乱跑,而是:读取 JD → 解析候选人简历 → 匹配硬条件 → 标记风险点 → 给面试建议 → 人工确认。

AI 视频生成流程也不是一句话生成成片,而是:选题 → 脚本 → 分镜 → 人设 → 提示词 → 抽卡 → 筛片 → 剪辑 → 复盘。

大模型测评流程
也不是简单打分,而是:任务构造 → 样本抽取 → 模型输出 → 裁判模型评分 → 人工校准 → 指标分析 → badcase 归因。

所以你真正要积累的是:如何把一个复杂任务拆成稳定工作流,并判断哪些节点适合交给模型。

第五阶段:Agent / 自主执行系统

Agent 的本质不是“会聊天”,而是:给它目标,它能自己规划、调用工具、观察结果、调整行动,直到完成任务。

Google 的 Gemini Computer Use 文档就提到,Computer Use 可以让模型通过截图“看见”屏幕,并生成鼠标点击、键盘输入等 UI 操作,用于构建能操作浏览器或界面的 agent。 

这说明一个趋势:未来 AI 不只是接 API。它可能直接操作软件界面。

这会改变应用开发。以前是:人操作软件。以后可能是:人提出目标,Agent 操作软件。

比如:“帮我整理过去三个月的招聘数据,找出转化率最低的岗位。”

Agent 可能自己打开后台、导出表格、分析数据、生成报告。

这时候,软件的价值不再只是 UI 好不好用,而是:能不能被 Agent 理解、调用、协作。

第六阶段:多 Agent / 组织化智能

再往后,单个 Agent 可能不够,会出现多个 Agent 分工。

比如:

一个负责搜索资料
一个负责代码实现
一个负责测试
一个负责审查
一个负责生成报告

OpenAI Agents SDK 里面的 handoffs 也是类似思路:不同 agent 之间可以进行任务交接;Anthropic 的 agent 文章也讨论了单 agent、多 agent 和 agentic workflow 的架构模式。 

但这里也要警惕: 多 Agent 不是越多越好。

很多多 Agent 项目失败,是因为:

协调成本高
上下文丢失
错误互相传染
结果不可控
调试困难

所以未来真正稀缺的能力是:不是会搭很多 Agent,而是知道什么时候不该用 Agent。

第七阶段:自我改进 / Agentic RL / Evaluation-driven Development

后面可以继续往这个方向想:未来 AI 应用不只是“写完上线”,而是持续自我优化。

比如:

系统记录每次失败案例
分析失败原因
调整提示词
更新工具调用策略
优化检索数据
改进评分规则
引入强化学习或偏好优化

之前也看过 Agentic RL,这里其实就接上了。

传统软件开发是:需求 → 开发 → 测试 → 上线。

AI 应用开发可能变成:任务 → 生成 → 评测 → 反馈 → 优化 → 再生成。

所以未来开发范式里,评测能力会变得非常重要。

因为模型不是确定性系统。
你不能只问“这个功能能不能跑”,还要问:

在 1000 个样本里表现如何?
失败集中在哪些类型?
模型有没有幻觉?
工具调用是否稳定?
多轮任务是否退化?
成本是否可控?
延迟是否可接受?
用户是否信任结果?

所以如果考虑“大模型测评工程师”这个方向,它未必只是打分岗位。更上层来看,它其实对应未来 AI 工程里的一个核心能力:用系统化评测驱动 AI 应用迭代。

想法整理

不应该只关注“用 AI 快速做一个应用/工具”,因为这类应用如果只是套壳、Prompt、API,长期壁垒有限。真正应该关注的是 AI 正在如何改变软件开发范式:从问答式模型,到具备推理能力的模型,再到能调用工具、接入知识库、执行工作流、完成任务的 Agent 系统。

未来的开发可能不再是单纯写固定逻辑,而是设计“人—模型—工具—数据—评测”协同的智能系统。开发者的核心能力也会从写功能,转向拆解任务、设计工作流、构建工具接口、控制模型行为、评估结果质量、持续优化系统表现。

所以需要持续积累的不是某一个 AI 工具,而是底层范式:RAG、Tool Use、Workflow、Agent、多 Agent、模型评测、数据闭环、Agentic RL,以及 AI 如何真正嵌入具体业务流程。

可以把你的长期方向概括成一句话:

不要只做“AI 应用的使用者”或“套壳开发者”,而要理解 AI 应用背后的新型工程范式:让模型从回答问题,走向理解任务、调用工具、执行流程、接受评测并持续进化。

不要陷入“AI 小工具开发者”的低阶内卷

现在很多 AI 应用的本质是:Prompt + API + 套壳界面 + 简单业务包装。

比如:AI 写作工具、AI 简历工具、AI 表格分析工具、AI 视频脚本工具、AI 总结工具。

这些东西不是不能做,而是如果只停留在这一层,长期壁垒非常弱。

因为它的问题在于:功能容易被复制,模型能力由平台决定,用户数据沉淀不足,业务流程嵌入不深。

所以这类应用很容易变成:

别人抄你的功能;
大厂直接内置;
模型升级后原来的优势消失;
用户只把它当临时工具,而不是工作流入口。

真正危险的不是“做 AI 应用”,而是:只会做浅层 AI 应用,却误以为自己掌握了 AI 时代的核心能力。

二、核心不是“做不做应用”,而是做哪一层应用

这里可以做一个分层。

第一层:AI 工具层

特点是:用户给一个输入,模型返回一个结果。比如:

写一段文案;总结一篇文章;生成一张图;优化一份简历。

这一层门槛最低,竞争最激烈。

第二层:AI 工作流层

特点是: AI 不只是生成结果,而是嵌入一个完整流程。比如:

  • AI 视频生产流程:选题 → 脚本 → 分镜 → 人物设定 → 提示词 → 画面生成 → 抽卡 → 剪辑 → 数据复盘。
  • AI 招聘流程:JD 解析 → 简历筛选 → 候选人打分 → 面试问题生成 → 风险点提示 → 面试反馈汇总。
  • AI 测评流程:任务设计 → 样本构造 → 模型输出 → 裁判评分 → badcase 归因 → 指标分析 → 优化建议。

这一层开始有壁垒,因为它不只是“调用模型”,而是理解行业流程。

第三层:AI Agent 系统层

特点是: 用户只给目标,系统自己拆解任务、调用工具、执行流程、观察结果、修正策略。

比如用户说:“帮我分析过去三个月短视频账号为什么流量下滑,并给出下周选题计划。”

真正的 Agent 系统应该能:

读取数据;
识别趋势;
拆解影响因素;
对比爆款内容;
生成选题;
预测风险;
安排执行顺序;
根据反馈继续迭代。

这一层的核心不是 Prompt,而是:任务规划、工具调用、记忆系统、状态管理、评测机制、异常处理、权限控制。

第四层:AI 组织层 / 多 Agent 协作层

未来更进一步,可能不是一个 Agent 做所有事,而是多个智能角色协作。比如:

产品 Agent 负责理解需求;
研发 Agent 负责写代码;
测试 Agent 负责找 bug;
数据 Agent 负责看指标;
运营 Agent 负责生成增长方案;
审查 Agent 负责风险控制。

这时开发者不再只是写代码,而是在设计一个“智能组织”。

三、未来开发范式的变化,重点不是“代码消失”,而是“代码角色变化”

未来不是完全不写代码,而是代码从“写死业务流程”变成:定义边界、提供工具、控制权限、管理状态、验证结果。

也就是说,开发者的职责会变化。以前开发者写的是:用户点按钮 A,系统执行逻辑 B,返回结果 C。未来开发者写的是:

这个任务的目标是什么;
哪些步骤可以让模型判断;
哪些步骤必须写死;
模型能调用哪些工具;
什么情况要人工确认;
什么结果算成功;
失败后怎么重试;
如何记录过程;
如何评估质量。

所以未来软件工程会越来越像:架构设计 + 流程编排 + 智能体管理 + 评测系统。

四、真正应该积累的不是“工具清单”,而是“范式能力”

  1. 模型理解能力

包括:

大模型为什么会推理;
上下文窗口如何影响输出;
幻觉为什么产生;
CoT、ReAct、Tree of Thought、Self-Reflection 这些方法解决什么问题;
不同模型在推理、代码、多模态、工具调用上的差异。

这决定你能不能判断:什么任务适合交给模型,什么任务不适合。

  1. 任务拆解能力

这是 Agent 时代最重要的能力之一。不是用户说一句话,你就直接丢给模型,而是要能拆成:

目标;
输入;
约束;
步骤;
工具;
中间状态;
成功标准;
失败处理。

比如“做一份行业分析报告”,不能直接让模型生成,而要拆成:资料收集 → 信息清洗 → 观点提炼 → 结构生成 → 数据验证 → 风险检查 → 输出成稿。

这才是 AI 系统设计。

  1. 工具与数据连接能力

模型本身只是大脑,但它需要手脚和外部记忆。所以要积累:

RAG;
知识库;
数据库查询;
API 调用;
浏览器操作;
代码执行;
文件读取;
表格分析;
权限系统;
外部工具编排。

核心问题是:如何让模型可靠地使用外部世界,而不是只在文本里幻想。

  1. 评测与反馈能力

这是可以重点放大的部分。

AI 应用和传统应用最大的区别是:传统应用更多是确定性逻辑;AI 应用是概率性输出。

所以不能只看“能不能跑”,而要看:

准确率;
稳定性;
一致性;
幻觉率;
工具调用成功率;
多轮任务完成率;
成本;
延迟;
用户满意度;
badcase 分布。

未来优秀 AI 工程师一定要懂评测。因为没有评测,就没有可靠迭代。测评不是边缘岗位,而是 AI 系统工程里的核心环节。

  1. 产品与业务抽象能力

最后一类最容易被忽视。

AI 不是脱离业务存在的。真正有价值的 AI 系统,一定是嵌入具体场景的。

比如:招聘、教育、金融、短视频、游戏、客服、医疗、法律、企业管理。要看懂:

这个行业的核心流程是什么;
哪一步最耗人力;
哪一步最依赖经验;
哪一步可以自动化;
哪一步必须人工把关;
数据在哪里沉淀;
用户为什么愿意长期使用。

这决定做出来的是“玩具”,还是“系统”。

← 返回 Notes

Contact

Contact Me

Leave a message here. The form sends directly from the browser to a form delivery service and then to my email.

Messages are delivered to [email protected].