在云计算的时候就在做的一个新的方向,memory service 对其中一些行业场景做了解析和增强方案,对agent的效果提升非常明显
最近用 Claude Code 重构blog的过程和研究openclaw的过程我发现他们也有自己的memory体系,但是更简单,跟倾向于通过执行任务的llm直接进行memory的提取和压缩,并且这并不是一个非常重要的任务,通常只发生在上下文长度即将越过模型上下文边界时,由于这种配置肯定不是面向成本的,是面向效果的,有点像“性能优先” 所以一定是一个过渡版本。这个粗暴的压缩会导致一些问题
- 有工程师使用openclaw整理邮件,明确要求了先分拣,不要进行删除。但是由于文件数量过大,直接触发了上下文压缩,而关键的任务要求“不要删除”又被丢弃了,导致删除无预期的直接开始,工程师直接崩溃了都
- 当我指导agent完成任务时,我会在审美,代码架构设计,成本和性能平衡上反复增加相同的对话内容。agent并没有意识到“我是一个成本敏感的技术宅” 导致了很多额外的交互成本
发生这些不是模型的原因,因为当你调整了上下文,他的表现非常好,但是上下文的管理在agent应用中通常是不透明的,通用的自动化意味着对特殊场景适配性不足
这件事让我开始认真想一个问题:Agent 的智能增强,真正的战场不在模型本身,在于系统能不能在每一步给模型喂到"对的信息"。更直白说,就是上下文管理能力。
过去一年行业讨论 LLM 时,聚焦的常常是两件事:更聪明的模型、更长的上下文。但在我自己使用 Agent 的经历中,我感受到的体验提升的往往不是你如何使用它,而是:这一轮对话里,系统放了什么进来。
"记忆"是个好的切入点,但不是终点
很多团队做 Agent 遇到的第一个痛点,都是"记忆"——用户说过的话模型忘了,每次都像第一次,对话越长越跑偏。
"记忆"这个词容易被理解,也容易快速带来体验提升,所以很多产品从这里切入。我也是。
但做着做着会意识到:只存信息是不够的。信息越来越多,反而不知道哪些该给模型看——给多了是噪音,给少了是遗漏,给错了是干扰。
所以从"记忆"走向"上下文管理",是自然的演进,也是不得不走的一步。
"上下文管理"这个词没"记忆"性感,但更准确:在任务不同阶段,动态选择、组织、压缩、注入信息,让模型输出更符合目标、约束、偏好与当前情境。
它覆盖的范围,比大多数人想象的要大
如果真的把"上下文管理"展开,会发现几乎所有常见的 Agent 增强方向都能归进来。
提示词工程,本质是指令与约束的上下文注入——你是谁,你要怎么做事,什么能做什么不能做。很多人以为 prompt 工程是 trick,其实是在做系统级的上下文定义。常见失败是 prompt 越写越长,反而稀释重点,和用户目标冲突,听起来对、做不动。
偏好与习惯总结,本质是用户长期记忆的上下文注入。喜欢简洁还是详细、习惯先问还是先给结论、常用哪些术语——这些不用每次重新沟通。这是"认识你"的体验基础,也是让用户有粘性的地方。关键是偏好要可触发、可更正,不是越多越好,用不上的偏好是噪音。
自我进化,本质是系统经验记忆的上下文注入。失败案例沉淀、用户改动过的地方是偏好信号、哪种提问策略更少返工——这些积累下来,是让 Agent 越用越稳的关键。经验要"可执行",不要写成泛泛的道理,更像"下次遇到 X,先做 Y"。
长程任务总结,本质是把过程状态变成可持续上下文。长任务难的不是信息量大,是状态复杂——决策、依赖、待办、阻塞、变更。好的压缩不是对话摘要,而是状态化:已确认事实/未确认假设、已做步骤/待做步骤、当前阻塞、关键决策原因。只做摘要不做状态,执行到一半就会断档,这是我犯过的错。
Skill(方法论 + 工具经验),本质是可复用的上下文构造模板加执行策略。触发条件、最少需要哪些信息、步骤顺序、常见坑、工具失败兜底——把这些固化成 Skill,是把"会做一次"变成"每次都能做"。从产品角度看,Skill 是把隐性经验显性化,把不可控的 prompt 变成可运营资产。
最后一个有点意外:情绪。很多人把情绪当成"模型天生会不会共情",但在一个了解你的Agent面前,他是可以表现出情绪的。只是没有记忆的感情是“会消失的爱”目前还不能提供。
六类:指令、偏好、经验、状态、技能、情绪。
上下文做成资产,比堆模型更可持续
聊到这里,我觉得比较有价值的一个判断是:
模型能力的提升是供应侧的事,产品做不了太多,现在的迭代速度和成本来看,自己去续训练模型,除非你有非常多垂直领域的数据,不然很难收回成本。但上下文管理系统是产品自己能建的护城河——你如何在你提供的平台上,组织更好的上下文,帮助客户完成任务。同时具备任务+错误=更好的完成任务的模式,具有自我迭代的空间,这个是比训练模型成本更低,适应更广泛的。同时用户的习惯偏好会增强用户在平台的粘性,数据搬迁又增加了用户被挖掘的成本。短期来看上下文管理会降低paas平台售卖的token数量,~但是从一个任务流程会变的更长,体验更好的角度,上下文管理的能力反而会让token持续消耗,增加token流水。甚至有些厂商在尝试记忆不付费,通过token的增长补贴这部分成本。可能也是成功的商业设计
从记忆 MVP(偏好 + 摘要)开始,推进到状态化长程任务,再到 Skill 资产化,最后到经验进化闭环——这是一条可以实操的路径,每一步都有产品价值,不需要等到"模型再强一点",没有一个起步陷阱。
我在做博客 Agent 的时候,第一步做的就是上下文压缩规则——哪些东西必须保留、哪些可以压缩、哪些到了一定量就该存到外部文件。后来又做了 Skill——把处理文章这件事的步骤和坑固化下来,给到下一次用。
每一步都没有多聪明,但确实每次都会有更多的节约,甚至不需要引入很复杂的记忆数据库。
Agent 的护城河,不在模型能不能一次答对,而在系统能不能持续构造正确上下文,让它每次都更接近答对。
与其花精力关注哪个新模型更强,不如先把系统里的上下文管理做扎实。希望这个方向马上有非常成熟的思路和产品出现。