
立即访问 MinerU提供零安装网页版、功能完备的桌面客户端和即时 API 访问无需为部署烦恼一键获取所有产品形式开发者们可快来体验。同时欢迎在 Discord 和微信加入。MinerU 是一款高精度文档解析引擎适用于 LLM、RAG 和 Agent 工作流能将 PDF、DOCX、PPTX、XLSX、图片和网页转换为结构化的 Markdown 或 JSON 格式采用 VLMOCR 双引擎支持 109 种语言具备 MCP 服务器可与 LangChain、Dify、FastGPT 原生集成支持 10 余种国产 AI 芯片。核心解析能力原生支持 DOCX、PPTX 和 XLSX 解析公式转换为 LaTeX 格式表格转换为 HTML 格式可精确重构布局支持扫描文档、手写内容、多列布局和跨页表格合并输出按人类阅读顺序排列自动去除页眉和页脚VLM OCR 双引擎支持 109 种语言的 OCR 识别。集成用例解决方案AI 编码工具方面有 MCP 服务器如 Cursor、Claude Desktop、WindsurfRAG 框架包括 LangChain、LlamaIndex、RAGFlow、RAG - Anything、Flowise、Dify、FastGPT开发支持提供 Python、Go、TypeScript SDKCLI、REST API 和 Docker无代码方案可通过 mineru.net 在线使用还有 Gradio WebUI 和桌面客户端。部署私有、完全离线推理后端有多种选择pipeline 快速稳定无幻觉问题可在 CPU 或 GPU 上运行vlm - engine 高精度支持 vLLM、LMDeploy、mlx 生态系统hybrid - engine 高精度原生文本提取低幻觉支持国产 AI 芯片如昇腾、寒武纪、燧原、MetaX、摩尔线程、昆仑芯、壁仞、海光、平头哥等。更新日志2026/06/18 3.4 版本发布聚焦于管道后端的 OCR 能力升级、OCR 处理管道优化以及模型下载体验改进。OCR 模型升级至 PP - OCRv6在 OmniDocBench v1.6 上 OCR 准确率提升约 11%移除部分语言选项优化 OCR 推理和处理管道处理速度提升约 100%增加自动模型源选择功能优先检查本地已下载的模型缓存文件。2026/06/11 3.3 版本发布聚焦于混合解析性能优化和 VLM 模型能力升级。混合后端新增解析强度参数中等强度与高强度相比整体准确率仅降低 0.13 分但在不同设备和场景下解析速度提升 35% - 220%默认混合后端使用中等强度VLM 模型升级至 MinerU2.5 - Pro - 2605 - 1.2B修复多个模型问题增加原生多语言 OCR 支持。2026/04/18 3.1.0 版本发布聚焦于许可证开放、解析准确率和全格式原生支持。许可证从 AGPLv3 迁移至基于 Apache 2.0 的自定义许可证 MinerU 开源许可证VLM 主模型升级至 MinerU2.5 - Pro - 2604 - 1.2B提升整体解析准确率支持多种复杂文档布局解析全格式原生解析支持扩展到 PPTX 和 XLSX。2026/03/29 3.0.0 版本发布围绕解析能力、系统架构和工程可用性进行系统性升级。原生支持 DOCX 解析端到端速度提高数十倍管道后端在 OmniDocBenchv1.5上得分达 86.2增加多种复杂文档场景解析支持资源使用极低支持纯 CPU 推理API/CLI/Router 编排升级新增异步任务端点和 mineru - router部署和可用性改进解决兼容性问题优化解析管道降低峰值内存使用支持多线程并发推理移除部分模型。MinerU 项目介绍MinerU 是一款文档解析工具可将 PDF、图片、DOCX、PPTX 和 XLSX 输入转换为机器可读的格式如 Markdown 和 JSON以便进行下游的检索、提取和处理。它诞生于 InternLM 的预训练过程中专注于解决科学文献中的符号转换问题但与知名商业产品相比还很年轻。若遇到问题或结果不符合预期可在 issue 中提交问题并附上相关文档或样本文件。主要特性支持 PDF、图片、DOCX、PPTX 和 XLSX 输入去除页眉、页脚、脚注、页码等确保语义连贯按人类可读顺序输出文本适用于单栏、多栏和复杂布局保留原始文档的结构包括标题、段落、列表等提取图片、图片描述、表格、表格标题和脚注自动识别文档中的公式并转换为 LaTeX 格式自动识别文档中的表格并转换为 HTML 格式自动检测扫描版 PDF 和乱码 PDF并启用 OCR 功能OCR 支持 109 种语言的检测和识别支持多种输出格式如多模态和 NLP Markdown、按阅读顺序排序的 JSON 以及丰富的中间格式支持各种可视化结果包括布局可视化和跨度可视化便于高效确认输出质量内置 CLI、FastAPI、Gradio WebUI用于本地编排和多服务部署支持在纯 CPU 环境中运行也支持 GPU/MPS 加速兼容 Windows、Linux 和 Mac 平台。快速开始文档解析是一项困难且复杂的任务在复杂布局、扫描页面和手写内容等场景下解析结果可能不尽如人意。建议先尝试在线演示评估 MinerU 的解析质量和适用性再根据实际需求选择合适的部署方法。若有解析结果不理想的文档样本可在 issue 中分享遇到安装问题可先查阅常见问题解答FAQ。在线体验官方在线网页应用与客户端功能相同界面美观功能丰富需登录使用基于 Gradio 的在线演示界面简单仅具备核心解析功能无需登录。本地部署预安装注意事项——硬件和软件环境支持开发过程中仅针对特定的硬件和软件环境进行优化和测试以保证在推荐系统配置上部署和运行项目的用户获得最佳性能减少兼容性问题。在非主线环境中无法保证项目 100% 可用建议希望在非推荐环境中使用本项目的用户先仔细阅读文档和 FAQ。给出了解析后端pipeline、*-engine、*-http - client、hybrid、vlm的相关信息包括后端特性、准确率、操作系统、纯 CPU 支持、GPU 加速、最小 VRAM、最小 RAM、磁盘空间、Python 版本等并给出了相关注释。安装 MinerU可使用 pip 或 uv 安装也可从源代码安装。mineru[all] 包含所有核心功能兼容 Windows、Linux 和 macOS 系统适合大多数用户。若在 Windows 上安装后无法使用 CUDA 加速可参阅《Windows CUDA 加速常见问题解答》若需要为 VLM 模型指定推理框架或仅打算在边缘设备上安装轻量级客户端可参阅《扩展模块安装指南》。使用 Docker 部署 MinerUMinerU 提供了便捷的 Docker 部署方法有助于快速搭建环境并解决一些棘手的环境兼容性问题。但 Docker 部署仅支持 Linux 和支持 WSL2 的 Windows 环境macOS 用户应参考上述两种安装方法进行安装可在文档中获取《Docker 部署说明》。使用 MinerU若设备满足 GPU 加速要求可使用简单的命令行进行文档解析若不满足可指定后端为 pipeline 在纯 CPU 环境中运行。MinerU 目前支持本地 PDF、图片、DOCX、PPTX 和 XLSX 文件或目录输入可通过 CLI、API、WebUI 和 mineru - router 进行文档解析详细说明请参阅《使用指南》。常见问题解答使用过程中遇到问题可先查看常见问题解答FAQ寻找解决方案若问题仍未解决可使用 DeepWiki 与 AI 助手交互若还是无法解决欢迎通过 Discord 或微信加入社区与其他用户和开发者讨论。致谢所有贡献者本仓库采用基于 Apache 2.0 并附加额外条件的 MinerU 开源许可证。致谢感谢 UniMERNet、TableStructureRec、PaddleOCR、PaddleOCR2Pytorch、fast - langdetect、pypdfium2、pdftext、pypdf、magika、vLLM、LMDeploy。引用列出了多篇引用文章的信息包括标题、作者、期刊、年份等。项目链接给出了多个项目链接如 MinerU - Diffusion、Easy Data Preparation 等。