在 AI 时代,我们面临的挑战不再是找不到信息,而是信息无法转化为持久的资产。传统的检索增强生成(RAG)如同一场“临时面试”,你喂给 LLM 几个片段,它拼凑出一个答案,然后转头就忘。
本文提倡一种由Andrej Karpathy 实践的全新范式:LLM Wiki 模式。在这套架构中,Obsidian 是你的集成开发环境 (IDE),LLM 是你的初级程序员,而维基百科 (Wiki) 就是你的知识库代码 (Codebase)。
1. 核心范式转移:从“无状态检索”到“增量编译”
为什么你需要一个持久化的 Wiki?下表对比了传统 RAG 与 Wiki 模式的本质差异:
| 维度 | 传统 RAG (Stateless) | LLM Wiki (Stateful) |
|---|---|---|
| 知识时效性 | 动态检索,受限于 Top-K 片段的广度 | 一次编译,持续增量,知识始终以结构化形式就绪 |
| 积累效应 | 零散。每次提问都在重新发现知识 | 复利增长。每一次摄取都在加固既有的知识网 |
| 合成深度 | 浅层。仅根据当前检索片段拼凑回答 | 深层。跨页面关联实现高维洞察与矛盾识别 |
核心逻辑:传统 RAG 是“无状态”的,而 Wiki 模式则是“有状态”的。它将知识库视为一个需要增量编译的代码库。新知识不是简单的堆砌,而是对现有逻辑的“代码更新”。
2. 三层架构:知识库的物理与逻辑边界
要实现这一目标,你需要构建三层清晰的架构,明确定义人类与 AI 的协作边界:
- 原始资料层 (Raw Sources)
- 所有者:人类(Editor-in-Chief)。
- 定义:不可变的真理来源(Immutable)。包含论文 PDF、网页剪藏、原始数据或录音转录。
- 专家视角:这是你的证据库,LLM 只读不写,确保任何合成结论都可回溯。
- 维基层 (The Wiki)
- 所有者:LLM 智能体(Staff Writer)。
- 定义:由 LLM 维护的 Markdown 文件夹。包含实体页面、概念综述、逻辑关系图。
- 专家视角:这是你的知识代码库。LLM 负责所有的维护、链接和交叉引用。人类很少手动修改,只负责审查结论。
- 规范层 (The Schema)
- 所有者:人类与 LLM 共同进化。
- 定义:如 CLAUDE.md 或 AGENTS.md 的配置文件,定义了命名规范、目录结构和任务 SOP。
- 关键作用:它是知识库的“宪法”,将 LLM 从乱写代码的实习生转变为严谨的维基维护者。
3. 操作流程一:摄取 (Ingest) —— 开启自动化编译
摄取不仅仅是“保存”,而是一次全自动的知识集成。一个优质的摄取流程包含以下 6 个步骤:
- 分类预判 (Classify):在提取前先判断文件类型(报告、信件、论文或推文)。
- 核心收益:针对不同类型应用特定模板,避免生成平庸肤浅的摘要。
- 读取与讨论:LLM 阅读 Raw 文件并提取关键点,由人类确认是否抓取到了正确的语境。
- 核心收益:确保信息提取的准确性与方向性。
- 编写/更新摘要:生成独立的摘要页面。
- 核心收益:实现长文缩短,便于快速索引。
- 跨页面关联 (The Compounding Effect):LLM 检查并更新现有的“实体”或“概念”页面。
- 核心收益:单次摄取可能触达 10-15 个页面,打破孤岛,将新知织入旧网。
- 更新索引 (index.md):将新知识填入全局目录,并标注分类。
- 核心收益:确保知识在全局视角下“可见”。
- 记录日志 (log.md):在时间轴上记录本次活动。
- 专家建议:使用固定格式(如 ## [日期] ingest | 标题),以便后续利用 Unix 工具如 grep 快速审计演进轨迹。
4. 操作流程二:查询 (Query) —— 知识的二次深度合成
查询不再只是获取答案,它是驱动知识库“进化”的推进器。当你的 Wiki 规模在 100 个源文件以内时,LLM 仅通过阅读 index.md 就能实现精准的跨文档分析。
关键机制:结果回填 (Filing Back)
实操建议 1:不要满足于终端里的文字。要求 LLM 将复杂的比较分析直接生成为一个新的 Wiki 页面。
实操建议 2:指示 LLM 将查询中发现的新关联、新结论立即更新到相关的概念页面中。
实操建议 3:利用状态化思维。每一次深度查询都应产生一个“合成产物”,让下一次查询站在更高的起点。
这种“回填”机制确保了你的每一次思考都能转化为永久资产,实现知识复利。
5. 操作流程三:巡检 (Lint) —— 保证知识库的动态健康
为了防止知识库随着规模扩大而“腐烂”,必须定期进行类似代码检查的“巡检”。
LLM 巡检任务清单:
- 发散性检查 (Divergence Check):寻找新旧资料间的偏见或矛盾点,生成“反方观点”以平衡视角。
- 孤儿页面识别 (Orphan Pages):寻找无引用的页面并建立逻辑链接。
- 缺口填补 (Data Impute):利用 Web Search 搜索缺失的关键信息或数据。
- 概念提取:识别在多篇摘要中被提及但尚未建立独立“概念页面”的词条。
6. 闭环机制:正向循环的“复利效应”
通过“摄取-查询-巡检”,一个自我完善的系统就此形成:
- 零成本维护:人类只负责输入 Raw 资料和高阶提问,枯燥的跨引用更新、索引维护和排版工作全部由 AI “自动编译”。
- 状态化知识管理:不同于“阅后即焚”的对话,这个系统是有状态的。LLM 不仅是在回答你,它是在维护你的大脑外壳。
- 编辑部模型:你作为主编 (Editor-in-Chief) 负责验证事实与决策,AI 作为全职职员负责执行复杂的归档。
7. 初学者工具箱:开启你的 AI Wiki
以下是开启这一架构的推荐工具链:
| 类别 | 推荐工具 | 核心价值 |
|---|---|---|
| IDE 前端 | Obsidian | 知识的可视化容器,Graph View 可实时观察知识网增长。 |
| 采集端 | Web Clipper | 一键将网页转为整洁 Markdown。建议配合 hotkey 下载图片到本地。 |
| 自动化核心 | Claude Code / Codex | 能够直接操作文件系统、执行 Git 提交的 AI 智能体。 |
| 高级展示 | Marp | 将 Markdown 快速渲染为演示幻灯片。 |
| 扩展搜索 | qmd / MCP Servers | 跨越规模极限。当资料超过 100 份时,通过 MCP 协议提供本地搜索支持。 |
结语:LLM 个人知识库的终极目标是将人类从繁琐的“知识搬运”中解放出来。让 AI 负责 bookkeeping,让人类负责 thinking。从今天起,停止无意义的资料堆砌,开始编译你的个人知识库。
