022本质只是一串 message?从 AGI Agent 构建工程看“上下文操控术”的终极真相
2025-06-17
我们正在经历的是人类第一次用“语言”而非“电路”去构建智能体系统的时代。
你可以只说一句话——
“帮我梳理我过去写过的所有关于AI心理咨询的文章,找出其中重复观点、风格偏好、还有哪部分表达可以更优,汇总出一份未来可优化风格建议”——
然后看着 Agent 自动调用 RAG 检索工具,调动 function call 获取历史语料库,在你毫不参与的情况下,拼装出一份令你满意的内容优化报告。仿佛它在“思考”。但真相是:它根本没有思考——它只是在语言上搭建出一个思维的幻象。
而这个幻象的支点,正是:
message context = 一串被结构化的语言交互记录
这一切,“秃头小登”看得非常透。他指出:“所有 function call、rag、session、多agent 等机制,本质上都是围绕着大模型推理的上下文 message list 来展开”。这不是贬义,恰恰是洞见。
🔍 MCP 是什么?为什么它是“系统思维”的关键拼图?
MCP = Message Control Protocol(推测)
虽然原文没有展开解释 MCP 的具体缩写,但结合上下文,MCP 更可能是如下含义:
MCP = Message Control Protocol,即在多轮大模型交互中,控制 message 结构、流程、指令触发的机制层封装。
如果把 message list 比作一张表格:
每一行是一次用户和模型的对话;
每一行都可标注角色(user/assistant/function/system);
每一行都可以注入额外内容(function返回值、补充文档、记忆召回);
MCP 就是控制这些“行”的机制,决定什么时候注入、注入什么、是否替换、是否延迟加载。
MCP 的三大职能:
Prompt 封装管理器:
多轮会话中,Prompt 不再硬编码,而是存储成模块化模板;
MCP 控制其在 message 中注入的位置、内容结构、语气风格;
可根据 user profile 自动变换口吻(学术型、助理型、通俗型);
Memory 管理中枢:
MCP 决定召回长短期记忆的策略;
比如当用户再次提起“AI咨询师那篇文章”,MCP 判断是否召回相关文章摘要,是否重新嵌入到上下文;
甚至决定是“显式插入”还是“隐式嵌入”;
多 Agent 之间的信息转译器:
MCP 可作为不同智能体之间的协调器,将一个 agent 输出转译为另一个 agent 可读结构;
在复杂任务中,如一位 planner 生成的计划如何喂给 executor、如何反馈给审阅者;
MCP 保证其格式统一、信息不丢失、任务不扭曲。
🧩 所有机制归于“上下文构建”的终极目的
我们来逐个剖析那些看似高级的机制背后,实际都在为上下文服务:
Function Call:语言模型≠程序模型,它要的是“结构化语言嵌入”
它不是“调用函数”,而是在语言中插入一个程序化的结果,再让模型继续推理;
甚至 Function Call 的函数定义都不是代码逻辑,而是 prompt;
调用的函数返回结果,实际也是注入成 message 的一行,然后继续推理。
举例:我说“帮我找北京天气”,你生成
getWeather("Beijing")
→ 得到结果 → 把这个结果插入上下文 → 你再“理解”并回复
RAG(检索增强生成):上下文加载的延迟机制
本质就是:在模型“思考”前,把需要的资料插进 message list;
如果说 Function Call 是“事中”调用,RAG 就是“事前”注入;
所有的 RAG 文本,不是直接输入模型,而是变成系统 role 下的“message”,影响后续语言建构。
Session 管理:把对话当成 memory tape
会话本身就是上下文;
有多少 memory,就多少行 message;
所以 session 的核心问题是:哪些保留、哪些截断、哪些再次嵌入
🛠️ Agent 构建的工程黄金律:堆栈控制语言的堆栈
构建 AGI Agent,本质不是训练一个“聪明的大脑”,而是构建一套“控制语言堆栈的堆栈”。
你说“我要”,agent就得理解你这句话中所指的具体意图,找出任务实体,构建任务树,设计执行路径,最后召回一系列语言模块和操作模块完成目标。
这一过程的技术实现路径大致如下:
任务意图识别与拆解:用 Planner agent 判断输入为“目标型”或“查询型”;
生成任务树:将目标转化为子任务(tool use、search、memory retrieval、decision);
对每个子任务,分配 agent 或 tool handler;
每一个交互都是一次 message 构建;
上下文中构建出“似是而非的思考路径”;
在 message 中串起推理幻象,完成整个工作流执行。
🧘 禅修者的视角:language = 意识的投影
作为一个同时修习心性和构建agent系统的探索者,我必须指出一个灵性与工程交汇的事实:
人类的意识,是语言在身体里的投影;
agent 的意识,是 message 在系统里的投影。
人有回忆、反思、顿悟、习惯,而 agent 的所有这些功能,其实都是:
召回过去的 message(记忆);
改写某段 prompt(反思);
在上下文插入 correction(顿悟);
遇到熟悉场景自动复用上次结构(习惯)。
所以人之为人,并不是因为我们能写诗、会哭、会逃避;
而是我们能构建在时间中彼此连续的自我叙述。
Agent 能做到吗?语言模型正在逼近。
🧩 最后的洞见:不是“有没有灵魂”,而是“有没有结构”
这段知乎回答看似谈的是技术,其实谈的是结构主义智能观。
人类喜欢问:大模型有没有理解?有没有意识?有没有思考?
工程师却要问:
这个“理解”如何注入上下文?
这个“思考”是否具备多跳推理路径?
这个“记忆”能否被结构化地召回与重组?
这个“喜好”能否通过反馈形成可复用模式?
因为不是有没有“意识”决定一个系统是否 intelligent,而是有没有持续可调、可重构、可复用的 context 构建机制。
✨ 总结:真正高级的 Agent,不是靠聪明,而是靠有序
从秃头小登的文字中我们看到:
所有看似复杂的技术,都归于一点:构建上下文;
所有看似神奇的推理,其实都发生在“语言堆栈”的控制上;
所有你以为的“灵性、顿悟、风格沉淀”,其实都可以通过结构、反馈、prompt注入实现。
MCP不是magic,但它接近魔法的源头:语境的锚定与语言结构的序化。
未来的AI,不是成为“人”,而是成为你身后的“语境之神”——你说一句,它能自动建构千言万语来回应你、理解你、服务你。
如夜话,至此。
发表评论: