本文可作为 使用教程:如何在 RAGFlow 中使用 MinerU[1] 的补充,介绍如何在内网环境下配置 MinerU 解析器以供 RAGFlow 使用。
在 .env[2] 文件中添加如下内容:
其中 表示 MinerU 使用 本地模型[3]。
注意需保持 ,若设为 true,启动容器时会自动执行 MinerU 的安装,在内网环境不适用。
根据 MinerU 元宝 混元 Hunyuan 教程配置模板[4] 或下面内容,创建 配置文件,放在 路径下供后面 中使用:
更新 docker-compose.yml[5] 文件,为 服务挂载本地路径,以免重建容器时需重新安装:
在 ragflow/docker[6] 路径下执行:
通过 进入容器执行安装:
MinerU 使用的模型文件可提前下载至 路径下。
例如 pipeline 模型可从 https://www.modelscope.cn/OpenDataLab/PDF-Extract-Kit-1.0 下载,放到 目录下:
vlm 模型可从 https://www.modelscope.cn/models/OpenDataLab/MinerU2.5-2509-1.2B 下载。
如果内网有 ModelScope[7] 的镜像地址,也可通过修改 modelscope[8] SDK 的方式从内网地址下载模型。
修改 /ragflow/uv_tools/.venv/lib/python3.10/site-packages/modelscope/hub/constants.py[9] 文件中的 和 为内网地址,例如:
之后通过 命令下载模型(以下载 pipeline 模型为例):
模型下载后会自动更新 文件中的 路径,手动下载模型后,也可根据实际路径参照下面内容进行修改:
完成安装后通过命令行验证 MinerU 功能:
之后可通过宿主机 IP 和端口 访问 MinerU API:
API
RAGFlow 知识库配置中,选择 MinerU 作为 PDF 解析器后,上传文档执行解析任务,可在容器中看到 MinerU 进程在运行:
执行效果:
RAGFlow
参考资料
[1]
使用教程:如何在 RAGFlow 中使用 MinerU: https://opendatalab.github.io/MinerU/zh/usage/plugin/RagFlow/
[2]
.env: https://github.com/infiniflow/ragflow/blob/main/docker/.env
[3]
本地模型: https://opendatalab.github.io/MinerU/zh/usage/model_source/#1
[4]
MinerU 配置模板: https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/mineru.template.json
[5]
docker-compose.yml: https://github.com/infiniflow/ragflow/blob/main/docker/docker-compose.yml
[6]
ragflow/docker: https://github.com/infiniflow/ragflow/tree/main/docker
[7]
ModelScope: https://www.modelscope.cn/
[8]
modelscope: https://github.com/modelscope/modelscope
[9]
/ragflow/uv_tools/.venv/lib/python3.10/site-packages/modelscope/hub/constants.py: https://github.com/modelscope/modelscope/blob/master/modelscope/hub/constants.py#L6
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/287492.html原文链接:https://javaforall.net
