AI Agent 的底层运转逻辑究竟是什么?
学术界这么定义 Agent 循环1:
Observe (观察) -> Plan (规划) -> Action (行动)
在真实的工程实践中,它其实没有那么玄:用户给出目标,模型做一小段思考,调用工具,读取结果,再继续下一轮。学术界所谓 Observe、Plan、Action,说穿了也就是这回事。
理解了这个公式,我们就拿到了解开 LLM “幻觉”之谜的钥匙。
核心洞察:Input / Output 的“Token 甜区”
我们观察现在的 LLM,会发现一个极具普遍性的现象:模型的输入(Input)和输出(Output)之间,存在一个微妙的“甜区(Sweet Spot)”。
LLM 的“阅读理解能力”(处理海量 Input tokens)极其强大,但它的“长篇大论能力”(持续生成 Output tokens)却非常脆弱。当模型连续输出的 Token 数量突破某个阈值,它的注意力就会开始涣散,逻辑链条就会断裂,随之而来的就是指数级飙升的“幻觉”2。
而上述的 Agent Loop,恰恰是解决这个问题的神来之笔。
在 Thinking 和 Tool Call 阶段,我们刻意限制了模型的 Output tokens 数量。一旦模型决定调用工具,当前的生成过程就会被强制挂起(第三方 Agent 通常通过提示词限制一次做一个事情)。
紧接着,外部环境执行动作并返回 Tool Result。最绝妙的一步发生了:这个结果被拉回了系统,转换成了模型下一轮的 Input tokens。
这意味着什么?意味着我们用一套精巧的工程设计,把大模型从“危险的连续生成状态”,强行拉回了“安全的阅读理解状态”。大模型不再需要在虚无的潜空间里去“猜”答案,而是直接去“读”外部世界给出的、冷冰冰但绝对真实的客观数据。
幻觉问题,就这样在 Tool Result 的一次次拉回中,被卓有成效地抑制了。
此理不独适用于大模型:人闭门空想时的认知偏差,与模型连续自生成的幻觉,本质同源,皆因缺少外部真实反馈的锚定,越推演越偏离实际。
须臾之所实践
荀子在《劝学》里写道:“吾尝终日而思,不如须臾之所学。”
而在 AI Agent 的时代,这句话或许应该改写为:“吾尝终日而思,不如须臾之所实践。”
一个没有工具调用能力的纯文本大模型,就像一个被关在小黑屋里的哲学家。它拥有人类大量知识,却只能在脑海中反复推演,最终不可避免地走向走火入魔(幻觉)。
而 Agent 之所以强大,是因为它长出了手脚。它通过一次次 Tool Call 与真实世界发生碰撞,又通过一次次 Tool Result 从真实世界中获取无情的反馈。
但此处真正值得深思的,未必是机器,而是人。
真正值得人借鉴的,不只是“反馈”二字,而是反馈来得极快。对 LLM 而言,一个 Agent turn 往往不过数分钟:它先做一个不甚完美的判断,随即调用工具,碰一下现实,马上就拿回结果,然后立刻修正自己的下一步。
这件事的厉害之处,在于它不求一开始就想对,而是先尽快撞上真实世界。计划可以是粗的,路径可以先不优雅,但只要反馈来得足够快,系统就会被不断拉回正轨。它走的,不再是脑中那条自我感觉良好的幻想之路,而是现实一点点逼出来的道路。
人亦当如是。起步阶段,最忌计划过满、论证过久、迟迟不动。先做一个粗糙版本,先见一个用户,先跑一次流程,先拿到第一轮真实反馈。快,不只是效率问题;快本身就是认知方式。你越快接触现实,就越快摆脱幻觉,也越快逼近真正可行的方向。大模型借 Agent Loop 打破自生成的幻觉,人借速行打破空想中的臆断;二者底层逻辑,并无二致。
评论
有异议、有补充,或只想留一句话,皆可直言。我要的不是客气话,而是真反馈。