我搭建了一个AI记忆系统框架，完美解决上下文爆炸等问题

先说结论：

核心思想：

“大脑是用来思考的，不是用来记忆的，大模型同样如此。”

难点：

LLM 对话存在连锁崩溃——对话积累 → 上下文爆炸、Token 成本失控 → 暴力压缩丢失关键信息 → LLM 产生幻觉 → Session 切换 Agent 完全失忆 → 跨项目知识永不互通。现有 RAG、滑动窗口、上下文压缩方案全是被动兜底。

我解决了什么问题？

完美解决上下文爆炸问题 主 LLM 每轮只接收精炼上下文（节省 90% tokens），原始历史零注入，Token 消耗恒定不随会话增长
解决压缩失真问题 子代理主动蒸馏而非被动裁剪，关键信息不丢失
大幅降低 LLM 幻觉 干净上下文消除碎片信息，幻觉概率大幅下降
消除 Agent 失忆 跨 Session 有接力棒 essence.md，对话链持续不断
打破知识孤岛 全局记忆作用域跨项目共享知识

----------

AI越来越融入我们的生活了，现在无论做点什么，感觉完全离不开AI的帮助。

不管是游戏开发，还是日常对话、想要写点什么东西，如果没有AI辅助，感觉像是回到了原始社会一样。

但是，不知道你有没有跟我一样的痛苦时刻？

你打开 Cursor 或 Claude Code，新建了一个会话（Session）。

前 10 轮对话，AI 简直是你的灵魂伴侣。你和它详细对齐了项目架构、定好了特殊的 API 规范、交代了哪个第三方库有坑千万别用。

或者反复跟AI说一些基本的东西，它满口答应的好好的，但是过一会儿，又要强调一遍，反复拉扯。

我不是说了要....吗？
你要先...再...能不能记住？？
能不能不要再...！？？？
....

相信诸如此类的对话，在开发过程中会经常出现。

新 Session 秒变陌生人：新开一个窗口，它完全忘了你是谁。你不得不花半小时把之前的技术背景、避坑指南重新复制粘贴一遍。
注意力稀释（Lost in the Middle）：随着你们聊得越来越深，单次对话的上下文急剧膨胀。这时候你让它改个 bug，它开始睁眼说瞎话，因为真正关键的信息已经被淹没在中间几万字的调试日志里了。
连锁崩溃与幻觉大爆发：为了不让上下文超限，很多工具会暴力截断历史。这一截断，AI 直接把前天定好的“绝对不能用 WebSockets”的架构决策给“丢”了，又开始疯狂给你写 WebSockets 的 Bug 代码，答非所问，幻觉满天飞。

我们会遇到非常多的问题：

LLM 对话存在连锁崩溃——对话积累 → 上下文爆炸、Token 成本失控 → 暴力压缩丢失关键信息 → LLM 产生幻觉 → Session 切换 Agent 完全失忆 → 跨项目知识永不互通。

那么，有什么解决办法？

有的，市面上目前出现多非常多解决方案，github上相关的项目每天的⭐都在暴涨。

我也去尝试了，用了很多出名的方案。

但是，现有 RAG、滑动窗口、上下文压缩方案全是被动兜底。

滑动窗口/暴力裁剪：鞋挤脚了，不换鞋，直接把脚指头切掉。
普通向量 RAG：你问它 A 怎么写，它去数据库里搜了一堆包含“A”的代码碎片丢给 LLM。这就好比你问医生怎么治感冒，医生扔给你一吨感冒药说明书的碎片，说“你自己拼着看吧”。
MemGPT / Letta（虚拟内存）：让主 LLM 在写代码的同时，还得自己分心去想“我该把哪段话存到外存，把哪段话取出来”。这就像让你一边高强度手撕红黑树，一边还得在脑子里做垃圾回收（GC），直接把 AI 宝贵的推理心智给榨干了。

我始终坚信一个观点：“大脑是用来思考的，不是用来记忆的。” 一个优秀的开发者在写代码时，脑子里装的应该是算法、逻辑和架构设计，而不是去死记硬背前天聊过的每一句废话。

为了把这个理念塞进 AI 的脑子里，我做过无数次尝试。我亲手搭建过向量数据库，写过复杂的检索算法，也试过各种奇奇怪怪的第三方记忆管理库……但无一例外，体验都非常糟糕。它们就像是一块块打在 AI 身上的“补丁”，臃肿、迟钝、充满人工雕琢的笨拙。

直到有一天，我碰到了 pi-coding-agent。

当我看到它那极其开放、允许深入生命周期的 TS 钩子、自定义工具和后台子进程管理机制时，我整个人直接激灵了一下：！！！！我坚信了这么久的理念，终于找到了能把它完美落地的终极土壤！

1995 年由 McClelland 等学者提出的互补学习系统理论（Complementary Learning Systems），是脑科学界公认的经典。

人脑之所以牛逼，是因为它把记忆和思考拆成了两套分工明确的系统：

海马体（Hippocampus）：负责当下的情境体验。你今天早上吃了什么，刚才谁跟你说了句话，海马体“单次、快速”地记下来。但它容量很小，不适合存一辈子的知识。
大脑新皮层（Neocortex）：负责长期的通用知识。它是通过海马体长期反复的 Consolidation（巩固）才把知识固化下来的。

最神奇的交接仪式发生在睡眠中。当你睡觉（离线状态）时，海马体会疯狂“快进重放”白天的经历，把有价值的、本质的经验提炼出来，悄悄写入你的大脑新皮层。

在工程实现上，GitHub 上的两个顶流项目给了我极大的启发：

Headroom（工具与日志的极致压缩）：
chopratejas/headroom 证明了一件事：在工具输出、终端日志、文件内容等信息到达 LLM 之前，必须进行高比例的压缩过滤。AI 没必要读一万行一模一样的 npm 报错，它只需要知道“类型定义冲突了”这一行字。过滤无用噪声，能帮 Agent 节省 60% 到 95% 的 Token！
Ralph（轻装上阵，单轮循环）：
snarktank/ralph 提出了一个非常反常识的极客思想：不要让 AI 背负着历史包袱前行。每一次对话，都应该是纯净的。 它的内存不靠对话历史维持，而是靠状态文件和 Git。

将这些灵感结合在一起，我的思路彻底清晰了：主脑干干净净，只管思考；副脑离线整理，各司其职。

基于这个思路，我在 Pi 上用扩展机制开发了 Pi Memory System。我把 Agent 拆成了三个部分，就像一个高效运转的大脑：

在这个系统里，主 LLM（负责写代码的大脑皮层）过得极其舒服。在面对用户时，它完全看不到任何原始历史聊天记录。

每轮对话发生时，

这样做，爽在哪里？

Token 账单呈“心电图级”平稳：因为我们在每轮主脑思考前，把所有历史对话全部 Wipe（擦除）掉了！主 LLM 看到的上下文永远只有几千 token。不管你们聊了 10 轮还是 100 轮，Token 消耗是扁平恒定的，直接帮你省下 90% 的费用！
完美的“接力棒”机制：下一次你新开会话，或者跨 Session 切换，新上岗的 Agent 只要接过 essence.md 这根接力棒，瞬间就能无缝继续上一次的工作。
不占用推理带宽：记忆的整理和归档全是在后台由另一个轻量级子代理悄悄完成的，主 LLM 写代码时根本不需要分心。

人脑对不同的记忆，把握程度是不一样的。比如：“我非常确定我锁门了” vs “我感觉我好像锁了”。

系统强制子代理在往长期记忆写东西时，必须标注置信度：

[confirmed]：已验证。比如代码编译通过了，或者用户明确点头了。
[inferred]：合理推断。根据上下文逻辑猜出来的。
[intuition]：直觉。无直接证据，但有潜在价值的直觉和设想。

如果项目做到后期，你突然决定把原定的 WebSockets 方案废弃，改成 Server-Sent Events (SSE) 怎么办？

传统的向量检索只懂得生硬地覆盖，或者干脆把旧代码删了。但这会导致 AI 失去“为什么改”的上下文。

我们引入了 supersede（取代）工具。当新决策产生时，它会在旧条目上打个标记，然后指向新条目：

- [confirmed] 原定使用 WebSockets 进行实时通信。
- [confirmed] 鉴于客户端网络不稳定，架构切换为 Server-Sent Events (SSE) 配合 HTTP Polling 降级方案。

这样，AI 不仅记住了新决定，还看懂了“发现错误 ➡ 迭代进化”的思维轨迹，再也不会在同一个坑里摔倒两次。

记忆绝不是孤立的卡片，而是交织的网络。

子代理在写新记忆时，会主动用 [[文件名#章节]] 去链接已有的记忆文件（类似 Obsidian 的双向链接）。在搜索记忆（Recall）时，我们不玩死板的余弦相似度，而是基于内容指纹进行多样性打散（Diversity Ranking），极大地激活了 LLM 的“自由联想”，让 AI 举一反三。

在这个动不动就用向量数据库、Embedding 和各种云端 SaaS 的黑盒时代，我做了一个极其“复古”但极度舒适的选择：所有的记忆，全部以 Markdown 纯文本存储在本地。

~/.pi/agent/memory/projects/<name>/memories/
├── _index.md ← 自动生成的索引
├── facts.md ← 项目事实
├── preferences.md ← 你的偏好风格
├── decisions/ ← 你的决策
└── events/ ← 踩坑与调试记录

这样做，真的太爽了：