toolin.ai logo
toolin.ai
首页
AI工具
AI技能包
AI资讯
精选推文
AI提示词
提交AI工具提交
toolin.ai logo
toolin.ai

百万AI玩家的创作利器库,发现最佳AI工具组合,提升您的创作效率

AI工具958个
技能包11个
产品功能
  • AI工具
  • AI技能包
  • AI资讯
  • 精选推文
关于我们
  • 关于Toolin
  • 联系我们
  • 合作洽谈
  • 更新日志
关注我们
© 2025 toolin.ai. All rights reserved.
服务条款隐私政策

Karpathy 的 LLM Wiki:不用 RAG 也能构建个人知识库

2026/04/18
·toolin小编

Andrej Karpathy 分享了他的 LLM Wiki 工作流,用 Markdown 文件 + Claude Code 替代复杂的 RAG 架构,构建可演化的个人知识库。

Karpathy 的 LLM Wiki:不用 RAG 也能构建个人知识库
Karpathy 的 LLM Wiki:不用 RAG 也能构建个人知识库
2026/04/18

Karpathy 的 LLM Wiki:不用 RAG 也能构建个人知识库

Andrej Karpathy 分享了他的 LLM Wiki 工作流,用 Markdown 文件 + Claude Code 替代复杂的 RAG 架构,构建可演化的个人知识库。

开始前的准备系统架构:三个组件具体步骤第一步:收集原始素材第二步:让 LLM "编译"素材第三步:用 Obsidian 作为阅读前端第四步:直接向 LLM 提问第五步:设置自动化维护为什么不需要 RAG扩展方向参考
AI教程

Andrej Karpathy 最近分享了一个他称之为 "LLM Wiki" 的工作流:不再把大模型主要用于写代码,而是将 Token 消耗在构建一个围绕个人研究兴趣的"可演化知识库"上。整个系统的架构极其简洁 -- 不需要数据库,不需要向量嵌入,不需要服务器,只需要 Markdown 文件和一个功能强大的模型。

这个思路的核心颠覆在于:在中等规模数据集上,LLM 本身已经具备足够的"自检索"和"自组织"能力,你可能不再需要复杂的 RAG 架构。

Karpathy 在 X 上分享的 LLM Wiki 项目架构图

开始前的准备

  • 所需工具:Claude Code(命令行工具)、Obsidian(可选,作为阅读前端)
  • 技术要求:基本的命令行操作能力
  • 预计时间:初始搭建 30 分钟,持续维护每天几分钟
  • 项目地址:https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

系统架构:三个组件

Karpathy 的架构只包含三个核心组件:

1. 一个 Markdown 文件文件夹

这就是你的知识库。可以包含任何内容:研究笔记、会议纪要、项目文档、读书笔记、代码片段。

2. 每个文件内部结构一致

优秀的 LLM Wiki 文档采用一致的内部格式 -- 标题、简短摘要、标签主题以及正文内容。模型利用这种结构更快地定位相关信息。

3. 使用 Claude Code 作为查询界面

打开终端,导航到你的 wiki 文件夹,启动 Claude Code,然后向它提问。Claude 会读取所需的文件,综合生成答案,甚至可以更新或添加笔记。

LLM Wiki 的三阶段工作流:数据导入、编译、主动维护

具体步骤

第一步:收集原始素材

创建一个 raw/ 目录,将与研究主题相关的所有素材一股脑放进去:

  • 论文 PDF
  • 技术博客(使用 Obsidian Web Clipper 转为 Markdown)
  • GitHub 代码仓库
  • 数据集
  • 图片等多模态内容

这一步不需要任何结构设计,目标是最大化原始信息的完整性。

提示:使用 Obsidian Web Clipper 可以方便地将网页内容转为 Markdown,图片也会存储在本地,方便 LLM 通过视觉功能引用。

第二步:让 LLM "编译"素材

调用 LLM 对 raw/ 目录中的素材进行增量"编译",生成结构化的 Wiki 页面。编译过程包括:

  • 生成摘要和关键词
  • 识别核心概念
  • 撰写百科全书式条目
  • 在相关概念之间创建反向链接

这个 Wiki 本质上是一个由 AI 自动撰写和维护的知识百科系统,存储为结构化的 Markdown 文件集合。

第三步:用 Obsidian 作为阅读前端

Karpathy 把 Obsidian 作为这个系统的"前端 IDE",在这里可以:

  • 查看原始数据
  • 浏览编译好的 Wiki
  • 查看衍生的可视化内容
  • 使用 Marp 插件将 Wiki 内容生成演示幻灯片

核心原则:Wiki 中的所有数据都由 LLM 编写和维护,自己极少直接动手修改。

第四步:直接向 LLM 提问

当知识库规模逐渐扩大(Karpathy 提到一个包含约 100 篇文章、总计 40 万字的项目),你可以直接向 LLM Agent 提出复杂的系统性问题。

与传统 RAG 不同,Karpathy 依赖的是 LLM 对 Wiki 的"内生理解"能力 -- 模型通过自动维护的索引与摘要,高效定位信息并综合分析。

第五步:设置自动化维护

定期调用 LLM 对整个 Wiki 进行"体检":

  • 检测数据不一致
  • 补全缺失信息
  • 通过联网搜索引入新资料
  • 主动挖掘潜在关联关系并生成新专题文章

社区可视化呈现的 LLM Wiki 架构

为什么不需要 RAG

Karpathy 的方法与 RAG 的根本区别在于思路:

对比维度传统 RAGLLM Wiki
数据处理分块 + 向量嵌入 + 向量数据库Markdown 文件 + LLM 直接阅读
检索方式相似性搜索LLM 内生理解 + 结构化索引
可追溯性向量嵌入是"黑箱"每条声明可追溯到具体 .md 文件
维护成本需要向量数据库和嵌入服务只需要文件系统

Karpathy 把 Markdown 文件视为"真理之源"。AI 做出的每一项声明都可以追溯到特定的文件,而你可以阅读、编辑或删除这些文件。

扩展方向

Karpathy 提到的下一步演化方向:通过合成数据生成与微调,将结构化知识"压缩"进模型权重。从依赖上下文窗口的外部知识系统,迈向模型内部的长期记忆。

社区也已经开始将这个思路产品化。有人推出了 Claudeopedia 等工具,在 Karpathy 方案的基础上增加了交互式可视化界面和定时自动复核功能。

参考

  • Karpathy 的项目 Gist:https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
  • Obsidian Web Clipper:https://obsidian.md/clipper
所有文章

作者

avatar for toolin小编
toolin小编

分类

  • AI教程
开始前的准备系统架构:三个组件具体步骤第一步:收集原始素材第二步:让 LLM "编译"素材第三步:用 Obsidian 作为阅读前端第四步:直接向 LLM 提问第五步:设置自动化维护为什么不需要 RAG扩展方向参考

相关文章

AI记忆增强工具盘点与实战
AI教程

AI记忆增强工具盘点与实战

从Claude-Mem到DeepSeek DSA,盘点2026年主流AI记忆增强工具,附原理对比和选型建议。

avatar for toolin小编
toolin小编
1天前
Claude Design 上线:用自然语言做设计的 AI 工具
AI产品

Claude Design 上线:用自然语言做设计的 AI 工具

Anthropic 发布 Claude Design,用自然语言对话即可生成高保真可交互设计原型,直接对标 Figma。

avatar for toolin小编
toolin小编
2天前
OpenAI Codex 大重构:独立光标、90+插件、AI自己排班
AI产品

OpenAI Codex 大重构:独立光标、90+插件、AI自己排班

OpenAI 重构 Codex 编程工具,新增独立光标支持后台操控 macOS 应用、90 余款开发插件、心跳自动排班机制,前端可视化调试,每周 300 万开发者可用。

avatar for toolin小编
toolin小编
2天前