预计阅读时间：6分钟28秒

大语言模型真的“记得”吗，还是只是看起来如此？

对记忆、推理与学习的哲学与技术考察

本文属于搬运内容，原作者：Seda Alacan Kavi

推理与记忆之间的区分

当下，大语言模型（LLMs）常被描述为“智能”系统，因为它们能够生成看似具有推理能力的输出。然而，这种描述模糊了一个至关重要的区分：推理（reasoning）与学习（learning）之间的区别。

当这一差异被不断弱化时，一个更为根本的问题反而被推到了背景之中：

什么才意味着“学习”？

在哲学与认知科学的文献中，学习并不只是“产生正确推论的能力”。

学习指的是：过往经验在时间中的保存，以及这些经验对未来行为所产生的系统性改变。

从这一角度来看，对于一个无法记住自身过去的系统，很难真正谈论“学习”。

在古典哲学中，推理通常被视为信息的加工过程，而学习则与知识的稳定化与持续性密切相关。

亚里士多德在《伦理学》中的区分在此极具启发意义：

没有 empeiria（经验），便不可能有 phronesis（实践智慧）。

换言之，一个过去不会留下任何痕迹的心智，只能产生瞬时的判断，而无法生成智慧。

大语言模型中的“上下文窗口”，恰恰对应的正是这种瞬时判断的领域。上下文是非连续的；一旦会话结束，认知上的痕迹也随之消失。

因此：

上下文并不是记忆。

“大语言模型的输出在很大程度上依赖于对暂时性上下文所进行的统计推断。”

当上下文消失时，系统此前似乎“学到”的一切也随之消失。

这里的问题并不在于模型的容量是否足够，而在于：记忆并未被系统性地加以处理。

本文正是试图指出一个在生成式 AI 应用中经常被忽视的关键问题，并论证：对“更聪明系统”的追求，往往反而催生出更加健忘的系统。

因为在不久的将来，真正重要的将不再是系统“说得多好”，而是它们能够多稳定地记住。

为什么大语言模型看起来“理解”了？

大语言模型的说服力，使它们看起来比实际能力更强。这一现象，与哲学中长期存在的一种张力密切相关：表征（representation）与现实（reality）之间的张力。

维特根斯坦的警告在这里尤为切中要害：

“事物被说出来的方式，可能会误导我们对它是什么的理解。”

语言上的连贯性会强烈地激发我们对“意义”的直觉，但这种直觉并不必然是正确的。

Bender 等人提出的“随机鹦鹉（stochastic parrots）”概念，在技术层面解释了这种错觉：

模型并不表征意义；它只是生成看起来像有意义的输出。

这一差异在哲学上至关重要。一旦我们跨越了“表征”与“认识”之间的边界，就会开始将智慧归因于系统。

而对于一个没有记忆的系统而言，这样的归因是没有根据的。

在与大语言模型互动时，人们往往会产生一种强烈的印象：系统似乎记得之前说过的话，能够维持上下文，甚至会在交流中“逐渐学习”。这种印象在长对话场景（例如聊天机器人）中尤为明显。

然而，大语言模型并不像人类那样记住过去。

当它们看似做到这一点时，原因并不在模型本身，而在于围绕模型所构建的系统架构。

澄清这一点，对于理解生成式 AI 项目中的核心概念至关重要。

模型层面：大语言模型究竟“知道”什么？

大语言模型唯一内建的“知识”，是其在训练过程中被嵌入参数中的统计性表征。

这种“知识”具有以下特征：

静态的（训练完成后不再改变）
与任何具体会话无关
既非个人性的，也非时间性的，更非情境性的

换言之：

模型无法知道它昨天给出的回答是否有用。

这种结构并不是记忆，而是一个被冻结的概率空间。

上下文窗口：记忆幻觉的来源

大语言模型之所以看起来像是“记得”，其根本原因在于**上下文窗口（context window）**的存在。

在一次对话过程中：

先前的消息被一并放入提示词中
模型“重新阅读”这些文本
并据此生成新的回应

关键在于这一点：

模型并未记住过去；而是每一次都被重新告知过去。

上下文窗口具有如下特征：

临时性的
容量有限的
会在会话结束时彻底消失的

应用层：到底是谁在“记忆”？

在实际的生成式 AI 应用中，通常会将对话历史存储在数据库中，并在每一次新请求时重新发送给模型。

在这种架构下：

并不是模型在记忆，而是应用层在记忆。

这一关键区分往往被忽略，从而导致一个错误结论：

“模型正在随着时间学习。”

而事实上，模型本身：

不会更新自身行为
不会从过去的结果中学习
可以无限次重复同样的错误

RAG：是获取知识，还是形成记忆？

检索增强生成（Retrieval-Augmented Generation，RAG）使大语言模型能够访问外部信息源。

RAG 架构的核心目标，是优化信息获取能力。

然而，在获取信息与记住经验之间，存在着本质性的差异。

在这里，大卫·休谟（David Hume）关于知识的论述极具启发性：

知识不仅仅是印象的总和，而是这些印象之间形成的习惯。

而“习惯”需要时间。

RAG 系统可以提供印象，却无法生成习惯。

因此，RAG 更像是一个档案库（archive）。

而记忆并不是档案，而是：

过去对当下行为所产生的因果性影响。

当这一差异被忽视时，组织便开始将“能访问信息”等同于“正在学习”。

通过 RAG，模型可以：

检索文档
阅读政策文本
提供更新、更准确的信息

但 RAG 并不是记忆。

因为它：

不会存储过去决策的结果
不会累积经验
不会随着时间改变系统行为

设想这样一个场景：

我告诉一个助手，我在公司 X 工作；后来又告诉它，我已经跳槽到了公司 Y。

当我再次询问“我在哪里工作”时，一个 RAG 系统仍有可能回答“公司 X”，因为两条信息在语义上高度相似。

系统并不会对“更新”或“时间先后”进行推理；

它只是从向量空间中检索最相近的匹配。

RAG 回答的是：“我知道什么？” 记忆回答的是：“在我之前发生了什么，为什么这很重要？”

注：目前已有一些项目试图通过在 LLM 之上引入显式记忆层来弥补这一缺陷。

其中，Mem0 尤为具有代表性。

它通过区分短期上下文与长期记忆，并对信息的更新、时序性与覆盖机制进行显式管理，试图缩小这一差距。

与仅依赖语义相似性不同，Mem0 允许系统将新信息视为更新，而不仅仅是另一条文档，从而降低检索到过期或相互冲突记忆的风险。

技术现实：为什么大语言模型无法记忆

当前的大语言模型架构：

不会在推理阶段更新参数
不维持持久状态
无法写回自身的过去

模型层面的记忆能力，受到以下因素的严格限制：

安全性
合规与监管
可重复性与确定性

因此，记忆被刻意地外置于模型之外。

当下可行的方案：记忆的模拟

当今组织真正能够实现的，并非真实的记忆，而是对记忆行为的模拟。

这需要：

外部记忆存储
可审计的记录
时间性、情境性与结果导向的关联
明确的遗忘策略

缺乏这些要素的生成式 AI 系统，或许在演示中令人惊艳，但在真实生产环境中往往表现为机械、重复、低效。

智能体、自主性与记忆

“智能体（agent）”常被描述为“自主系统”。

但在哲学意义上，自主性并不仅仅意味着“能够行动”。

在康德对自主性的理解中，一个主体之所以是自主的，是因为它能够将当前行为，约束在由过去经验所形成的规则或伦理原则之下。

一个无法记住自身过去决策后果的主体，并不自由，而只是被动反应。

一个没有记忆的智能体：

可以做出决策
可以采取行动
但无法在这些决策之间建立连续性

一种规范性的呼吁

当下，关于生成式 AI 的讨论，往往围绕一个问题展开：

“什么是可能的？”

但更重要的问题其实是：

组织应该选择记住什么？

记忆从来不是中性的。

被记住的内容，以及被遗忘的内容，共同塑造了系统的行为方式。

在设计生成式 AI 系统时，组织必须明确界定：

记忆的边界
遗忘的条件
过去在多大程度上约束当下

否则，它们构建的系统可能：

语言流畅
决策迅速
却始终无法真正学习

在不久的将来，竞争优势不再属于模型更大的系统，而属于那些清楚知道何时记住、何时遗忘的系统。

大语言模型并非“健忘”。

它们只是被要求去执行一种它们从未拥有过的功能。

问题不在模型本身，而在于我们赋予它的角色。

真正的问题应当是：

这个系统应该记住什么、记多久、在什么条件下记住？

如果不提出这个问题，生成式 AI 项目或许看起来智能，却终将不断重复自己。

在未来，真正区分系统优劣的，将不是更大的模型，而是更有意识地设计出来的记忆架构。

如何更有意识地设计记忆架构？

1 —— 记忆不仅仅是数据存储

一种有意图的记忆架构，首先必须做出清晰区分：

日志（logging）不是记忆
RAG 不是记忆
超长上下文窗口也不是记忆

记忆必须能够影响系统未来的行为。

如果被存储的信息并不会改变系统的行动方式，那么它就不具备记忆的功能。

2 —— 分层记忆架构

一种可行且实践导向的方法，是将记忆拆分为多个层级，每一层都有明确的职责。

a）情节记忆（Episodic Memory）：发生了什么？

用于存储过去的事件，以及与之相关的情境与结果。

包含内容例如：

时间戳
上下文（用户、任务、环境）
采取的行动
行动结果（成功、失败、不确定）

关键点：

不要只存储对话内容，要存储决策及其结果。

b）语义记忆（Semantic Memory）：系统学到了什么？

从情节记忆中提取模式与摘要。

例如：

用户偏好
风险画像
行为模式

实现方式可以包括：

特征存储（feature stores）
用户画像
定期更新的总结

这一层更新的是知识结构，而非模型权重。

c）程序性记忆（Procedural Memory）：系统应当如何行动？

用于控制系统的行为方式与策略选择。

例如：

哪些提示词效果最好
哪些策略应当避免
何时升级处理、调整语气

这一层会直接影响：

提示词设计
策略与政策
智能体的规划逻辑

3 —— 遗忘是一种设计选择

有意图的系统不会试图记住一切。

遗忘机制应当被明确设计，例如：

基于时间的删除（TTL）
置信度衰减
基于法规的删除（如 GDPR）
基于上下文的过期机制

遗忘对于以下目标是必要的：

性能
合规性
系统稳定性

4 —— 面向结果的记忆

有价值的记忆，应当将行动与结果关联起来。

与其只存储：

“系统做出了回应”

不如存储：

“系统做出了回应 → 结果是负面的”

这使系统能够避免重复无效甚至有害的行为。

5 —— 透明性与可追溯性

在生产级生成式 AI 系统中，记忆必须是可审计的。

你应当能够回答以下问题：

哪一段记忆影响了这次决策？
这条信息是在什么时候被存储的？
它的可靠性如何？

这需要：

版本化的记忆记录
清晰的审计日志
可追溯的决策路径

6 —— 智能体系统中的记忆

没有记忆的智能体，只能被动反应、不断重复。

拥有记忆的智能体，才能：

保持行为一致性
调整策略
随时间改进表现

记忆使智能体得以超越简单的“提示—响应”模式。

7 —— 参考架构（简化版）

用户交互
      ↓
上下文窗口（临时）
      ↓
情节记忆（事件 + 结果）
      ↓
语义记忆（模式）
      ↓
程序性记忆（规则与策略）
      ↓
提示词 / 策略更新

最终结论

更好的生成式 AI 系统，并不是通过使用更大的模型构建的，而是通过设计更好的记忆架构实现的。

真正的优势，来自那些清楚知道以下问题答案的系统：

该记住什么
记多久
什么时候应该遗忘

参考文献

本文参考的哲学与技术研究文献如下：

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021) On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
Vaswani, A. et al. (2017) Attention Is All You Need
Lewis, P. et al. (2020) Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Argote, L. (2013) Organizational Learning: Creating, Retaining and Transferring Knowledge. Springer.
Sutton, R. S., & Barto, A. G. (2018) Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
Lewis, P., Perez, E., Piktus, A., et al. (2020) Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
Liu, J., et al. (2024) RAG is Not Memory.
Newell, A., & Simon, H. A. (1972) Human Problem Solving. Prentice-Hall.
Marcus, G. (2022) Deep Learning Is Hitting a Wall. MIT Technology Review.