AI 知识库（RAG 系统）快速本地 Demo 搭建指南

1. 什么是 AI 知识库？

AI 知识库通常指 RAG（Retrieval-Augmented Generation，检索增强生成） 系统。它让你把自己的文档（PDF、TXT、Markdown 等）存入向量数据库，当用户提问时：

系统先检索最相关的知识片段；
再让本地大模型（LLM）基于这些知识生成回答，避免“幻觉”。

优点：完全本地运行、隐私安全、无 API 费用、可自定义知识。

2. 最简单推荐方案：AnythingLLM + Ollama

（推荐新手，5-10 分钟上手）

这是目前最方便的零代码本地知识库方案，有漂亮的 Web UI，支持拖拽上传文档、聊天交互。

Ollama

Ollama 是目前最受欢迎的本地大模型运行工具，可以让你在自己的电脑上轻松下载、运行和管理开源大语言模型（LLM），完全离线使用。简单理解就是下载和管理开源大模型以及本地运行这些模型（提供聊天、API 服务）

简单易用：一行命令就能运行大模型，像 Docker 一样方便。
完全本地：所有模型和数据都在本地运行，隐私安全，无需联网（下载模型后）。
支持多种模型：Llama 3/3.1/3.2、Qwen2/Qwen2.5、Gemma2、Mistral、Phi-3、DeepSeek、CodeLlama 等数百种开源模型。
跨平台：Windows、macOS、Linux 均原生支持（Apple Silicon 优化极好）。
资源占用可控：支持量化版本（4bit、8bit），可在消费级电脑（甚至无独显）上运行。
开放生态：支持 Modelfile 自定义模型、工具调用（Tool Calling）、多模态（视觉模型如 Llava）。

使用场景

本地 ChatGPT：直接终端聊天或通过 Web UI 使用。
AI 知识库 / RAG：配合 AnythingLLM、LangChain、LlamaIndex、Dify 等构建私人知识库（这是你当前最相关的应用）。
开发集成：提供 OpenAI 兼容 API，可无缝替换 ChatGPT 用于本地开发、自动化脚本、Agent 等。
模型微调与定制：用自己的数据创建专属模型。

AnythingLLM

AnythingLLM 是目前最受欢迎的开源本地 AI 知识库应用之一，由 Mintplex Labs 开发。它可以让你快速把自己的文档变成 AI 可以理解和回答的私人知识库。

拖拽上传文档 → 自动向量化 → 构建知识库（支持 PDF、Word、TXT、Markdown、Excel 等）。
基于 RAG 的智能对话：AI 回答时只会基于你上传的文档，不会乱编（大幅减少幻觉）。
完全本地化：支持 Ollama、LM Studio 等本地模型，无需 OpenAI API。
多工作区（Workspace）：可以为不同主题创建独立的知识库（如工作、学习、项目等）。
Web 聊天界面：类似 ChatGPT 的对话体验。
支持嵌入模型：文档向量化。
Agent 功能：可以调用工具、联网搜索（可选）、生成图像等。
用户管理：支持多用户、权限控制。

使用场景

个人知识管理（笔记、论文、书籍）
公司内部文档助手
学习辅助（把教材、讲义上传）
代码库问答
私人数据分析

步骤 1: 安装 Ollama（本地大模型运行器）

访问 Ollama 官网下载并安装（支持 Windows / macOS / Linux）。
打开终端，执行以下命令拉取模型（推荐中小模型，适合本地）：

ollama pull qwen2.5:7b          # 或 llama3.2:3b / gemma2:2b（根据你的显存选择）
ollama pull nomic-embed-text    # 嵌入模型，用于文档向量化

MacOS 版本还自带一个 chat 对话框，可以选择已安装的模型直接对话

或者输入命令行测试

ollama run qwen2.5:7b 然后输入问题试试

硬件建议：至少 8GB 内存（推荐 16GB+ + NVIDIA GPU）。CPU 也能跑，但慢一些。

步骤 2: 安装 AnythingLLM

最简单方式使用 Docker（推荐）：

# 1. 安装 Docker（如果没有）：官网下载或系统包管理器
# 2. 拉取并运行
docker run -d -p 3001:3001 --name anythingllm \
  -v anythingllm-data:/app/server/storage \
  mintplexlabs/anythingllm

打开浏览器访问 http://localhost:3001
首次进入会引导你设置管理员账号。

非 Docker 方式：从 GitHub 下载 AnythingLLM 桌面版或源码运行。

步骤 3: 配置并使用

在 AnythingLLM 设置中：
- LLM Provider → 选择 Ollama → 模型选 qwen2.5:7b（或你下载的）。
- Embedding Provider → 选择 Ollama → 模型选 nomic-embed-text。
创建一个 Workspace（工作区）。
上传文档：拖拽你的 PDF/TXT/MD 文件（支持文件夹批量）。
等待文档向量化完成（进度条）。
切换到 Chat 界面，向 AI 提问关于你上传文档的内容。

示例：上传公司手册或学习笔记，然后问“这个文档里关于 XX 的内容是什么？”

然后就可以在当前工作区询问有关文档里面的内容了