uv 包管理器安装 MinerU
- 先用
uv安装setuptools wheel torch1
uv pip install setuptools wheel torch
- 然后再安装
detectron21
uv pip install --no-build-isolation git+https://github.com/facebookresearch/detectron2.git
- 最后安装
magic-pdf[full]1
uv pip install 'magic-pdf[full]' --extra-index-url https://wheels.myhloli.com --prerelease=allow
- 最后检查
magic-pdf的版本>=0.7.0,而不是0.6.1 - 如果像使用 GPU 进行 PaddlePaddle OCR 的推理,继续安装
paddlepaddle-gpu1
uv pip install paddlepaddle-gpu
MinerU Command Line
MinerU API 使用指南
MinerU 的使用流程基本上是
- 将 PDF 加载为 magic_pdf.data.dataset.Dataset
- 执行 OCR 和 Layout Inference
这里还想更详细地记录一下 API,感觉 Documentation 里写的不是很全,得从 demo.py 里找。