MinerU 是一款高性能PDF解析工具,能够将PDF文档精准转换为机器可读格式(如Markdown、JSON、HTML、LaTeX等)。它不仅能智能清理页眉、页脚、页码等干扰元素,还能保留文档结构(标题、段落、列表、表格、公式等),并支持多语言OCR识别,适用于学术研究、数据分析、文档自动化处理等场景。
核心功能
✅ 智能解析 - 自动识别并清理页眉、页脚、页码,确保语义连贯
✅ 多格式输出 - 支持Markdown、JSON、HTML、LaTeX等,适配不同需求
✅ 复杂排版处理 - 精准还原单栏、多栏及混合排版文档的阅读顺序
✅ 公式 & 表格转换 - 自动将公式转为LaTeX,表格转为HTML
✅ OCR增强 - 支持84种语言的文字识别,可处理扫描版/乱码PDF
✅ 高性能加速 - 兼容CPU/GPU/NPU,支持跨平台运行(Win/Linux/Mac)
项目地址:https://github.com/opendatalab/MinerU