RAG-Anything 是一个开箱即用、支持文本+图像+PDF+音视频等全类型文件的检索增强生成(RAG)框架。它解决了当前企业与开发者在构建私有知识库时最头疼的问题:既要处理扫描版PDF、产品截图、会议录音、技术图表等杂乱多源数据,又要保证问答准确、响应快速、部署简单。无需从零写向量索引逻辑,不用反复调试分块策略——它把整个 RAG 流水线封装成“上传即用”的智能知识中枢。
核心功能
- 真正意义上的多模态 RAG:原生支持 PDF(含扫描件OCR)、Word、PPT、Excel、Markdown、图片(JPG/PNG)、音频(MP3/WAV)和视频(MP4)——自动提取文字、识别图表、转录语音,并统一向量化检索
- 智能分块 + 语义感知索引:不止按固定长度切文本,还能识别标题层级、代码块、表格结构、公式区域;结合 LayoutLMv3 和 CLIP 多模态编码器,让“图中流程图”也能被“文字问题”精准召回
- 轻量级本地部署 & 云原生兼容:默认使用高效轻量的 Qwen2-VL 或 Phi-3-vision 模型,单台 24GB 显存服务器即可运行;同时支持 Docker/K8s 部署,轻松对接企业内网或私有云
- 可视化知识管理后台:提供简洁直观的 Web 界面,支持文件上传、元数据标注、相似文档聚类、检索过程高亮溯源(点击答案可回溯到原文哪一页/哪一帧/哪一段音频)
- 插件化扩展架构:内置 Elasticsearch / Chroma / Qdrant 三种向量数据库适配器;开放 LLM 接口层,可无缝切换本地模型(Ollama)、API 模型(OpenAI/DeepSeek/通义千问)或私有大模型服务
- 面向生产环境的工程优化:支持增量索引更新、批量异步处理、检索结果重排序(RRF)、流式回答输出、审计日志记录,已通过百GB级企业文档实测验证稳定性
适合哪些人用
一线 AI 工程师、技术产品经理、高校研究者、中小企业数字化负责人,以及任何需要将自有资料(如产品手册、客服话术、内部培训视频、设计稿、合同模板)快速转化为可对话、可追溯、可审计的智能知识助手的团队。尤其推荐给正在评估 RAG 落地路径但苦于技术门槛高、数据格式杂、效果难稳定的实践者——它不是概念 Demo,而是已在多个金融、制造、教育场景中投入真实使用的工业级框架。
快速上手
只需三步,5 分钟启动本地知识库:
- 安装依赖:
pip install rag-anything(支持 Python 3.9+,自动安装 PyTorch/CUDA 适配版本) - 启动服务:
rag-anything --host 0.0.0.0 --port 8000 - 浏览器访问
http://localhost:8000,拖入任意格式文件,开始提问!
进阶用户可通过配置文件(YAML)自定义嵌入模型、LLM 接口、存储路径与安全策略;完整 CLI 命令与 API 文档见项目 Wiki。
项目信息
“RAG-Anything: All-in-One RAG Framework”
18.1k
今日 +574 stars today
Stars
2.1k
Forks
Python
MIT
编程语言:Python|GitHub Star 数:18066|开源协议:MIT|GitHub 项目地址
如果你厌倦了为每种文件格式写不同解析脚本、为每次效果不佳调参两小时,RAG-Anything 就是那个帮你把“RAG 理想”变成“日常工具”的关键拼图。




