Agent 要变可靠:把控制流写进代码,而不是把“不要跳过”写进提示词
Bear Blog 作者 Brian 提出一个务实结论:复杂任务里的可靠 agent 需要确定性控制流与校验点(scaffold),而不是越来越长的 prompt 链;HN 讨论也大量佐证了“用代码包住模型”能显著降低漂移与漏步骤。
关键要点
- 当你开始写 “MANDATORY / DO NOT SKIP” 时,通常已经碰到“纯提示词编排”的天花板。
- 把控制流、状态机、重试/回滚、输入输出校验写进代码,模型只负责局部推理与生成,整体系统会更稳。
- 先做最小可验证闭环:每一步都有产出物(文件/diff/日志)与检查点(测试/lint/断言),再谈并行与多 agent。
编辑解读
先判断这条资讯的真实信号
独立开发者最容易踩的坑是: 把 agent 当成“能自己把活干完的系统”,结果越跑越不稳定——漏步骤、重复做、遇到错误就自说自话地重跑。
这篇文章的核心建议很直接: 把“流程”从自然语言搬回代码里。用一个确定性的 harness(循环、队列、状态机、显式的下一步选择)驱动模型做单步任务,再把产物落盘并校验。
从独立开发者视角重新解读
可执行实践: 把你最常跑的一条链路(例如“修 bug → 跑测试 → 生成变更说明 → 发版”)拆成 5-10 个脚本化步骤;每一步都写清输入/输出与失败处理,并在最后加一条总验收(测试 + 关键页面检查)。
相关讨论:Hacker News 话题页也提供了大量真实案例与反例, 可用来补齐你自己的“哪些环节必须确定性”的清单:https://news.ycombinator.com/item?id=48051562
文章思维导图
把原文重点、开发者收获、落地行动和追问清单整理成一张图。适合先快速扫一遍,再下载 Markdown 大纲放进自己的知识库继续拆解。
我们能从这篇原文里学到什么
这里不复述新闻本身,而是把原文转成对独立开发者有用的判断框架。
AI 产品的壁垒不在“接入模型”,而在上下文、工作流和结果确认。用户买的不是聊天能力,而是某个任务被更稳定、更便宜或更快地完成。
从独立开发者视角看,这类“AI 产品”线索应该被当作样本来拆:它让我们看到一个真实问题如何被表达、验证、分发或工程化。
真正值得带走的不是单个新闻结论,而是背后的判断框架:问题是否真实、用户是否愿意行动、交付成本是否适合小团队、分发路径是否能重复。
下一步可以怎么做
把资讯变成一次产品、获客或工程实验,而不是只停留在阅读。
- 设计 AI 功能时,把流程拆成输入、上下文、执行、校验、人工确认、失败兜底六步。只有这六步都清楚,AI 才能从 demo 变成产品。
- 从“模型能力”切换到“任务闭环”:用户把什么输入给 AI,AI 产出什么结果,用户如何确认结果可靠。
- 检查这个方向是否有足够高频或高价值的上下文,如果每次都要重新解释,产品留存会很弱。
- 先做一个垂直工作流,不要一开始就做通用 Agent。窄场景更容易收集数据、优化任务说明和形成口碑。
4 个行动问题
- 这篇原文里最明确的目标用户是谁?他们现在用什么替代方案解决问题?
- 如果我只用 7 天验证同一个需求,最小可交付版本应该是什么?
- 这条线索更适合做产品功能、内容选题、获客渠道,还是技术风险清单?
- 我能否找到 5 个真实用户,用这篇资讯里的假设去做一次访谈或冷启动测试?