MinerU API 服务Docker一键部署(附源码)

一、关于MinerU

一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、word、markdown 等格式的内容。

1. 主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

二、安装和使用

1. 软硬件要求说明

以下是根据您提供的信息整理的表格:

操作系统
Ubuntu 22.04 LTSWindows 10 / 11macOS 11+
CPUx86_64x86_64x86_64 / arm64
内存大于等于16GB,推荐32G以上
python版本3.10
Nvidia Driver 版本latest(专有驱动)latestNone
CUDA环境自动安装[12.1(pytorch)+11.8(paddle)]11.8(手动安装)+cuDNN v8.7.0(手动安装)None
GPU硬件支持列表最低要求 8G+显存3060ti/3070/3080/3080ti/4060/4070/4070ti
8G显存仅可开启lavout和公式识别加速
None
推荐配置 16G+显存3090/3090ti/4070tisuper/4080/4090
16G及以上可以同时开启layout,公式识别和ocr加速
24G及以上可以同时开启layout,公式识别,ocr加速和表格识别

请注意,对于macOS来说,由于其不支持NVIDIA的CUDA技术,因此相关的GPU加速功能无法使用。此外,具体的硬件建议(如推荐的GPU型号)是针对具有特定需求的应用场景,比如深度学习或视频编辑等需要大量图形处理的任务。

2. Docker 一键部署

Docker 镜像构建源码:miner-u docker构建源码

  • 拉取代码
git clone https://gitee.com/ai-tzchao/miner-u.git
  • 构建镜像
cd miner-u
docker build -t tzchao/mineru-api:1.3.3 .
  • docker-compose.yaml
version: '3.8'
services:
  mineru:
    image: tzchao/mineru-api:1.3.3
    container_name: miner-u
    ports:
      - "5098:5098"
    environment:
      IMAGE_PREFIX_DEV: http://abc.com/     # 开发环境图片文件访问域名
      IMAGE_PREFIX_PRO: http://abcd.com/   # 生产环境图片文件访问域名
    volumes:
      - ./volumes/models:/app/models     # 文档提取用到的模型存储目录
      - ./volumes/files:/app/files               # 文档提取中图片文件保存目录
    restart: always
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    ipc: host
    runtime: nvidia


networks:
  mineru-net:
    driver: bridge

  • 启动服务
docker compose up -d miner-u
  • 请求示例
curl --location 'http://10.10.8.154:5098/file_parse' \
--form 'parse_method="auto"' \
--form 'is_json_md_dump="true"' \
--form 'file=@"/C:/Users/tzcha/Desktop/miner-u-测试图片.docx"' \    # 要解析的文档地址
--form 'env="pro"'

输出结果:
在这里插入图片描述

<think>好的,我需要帮助用户了解如何使用Docker部署Mineru。首先,我应该回顾用户提供的引用内容,看看有没有相关的步骤或命令。用户引用了三个来源,分别涉及Dockerfile的获取、构建镜像、启动容器以及Python环境的配置。 首先,引用[1]提到了使用wget下载Dockerfile,然后用docker build构建镜像。这应该是部署的第一步,即获取Dockerfile并构建镜像。接下来,引用[2]给出了docker run命令来启动容器,需要注意端口映射和GPU的支持。用户可能需要知道如何调整端口和确保GPU可用。然后引用[3]涉及Python版本的指定和conda环境的创建,这部分可能是在Docker镜像内部需要配置的环境,或者在构建镜像时需要包含的步骤。 接下来,我需要将这些步骤整理成一个清晰的流程。可能分为四个步骤:准备Dockerfile、构建镜像、启动容器、验证部署。每个步骤都需要详细说明命令和注意事项,比如如何下载Dockerfile,构建时的标签命名,启动时的端口设置和GPU参数,以及如何检查服务是否运行正常。 另外,用户提供的示例中提到了生成相关问题,所以我还需要创建几个相关问题,比如如何修改端口、处理构建错误、配置GPU支持等。这些问题应该基于部署过程中可能遇到的常见问题。 需要确保所有命令正确无误,特别是Docker命令的参数是否正确,比如--gpus=all需要Docker版本19.03以上,并且NVIDIA容器工具包已安装。此外,Python版本3.10的指定是否正确,是否需要在使用conda前安装某些依赖。 可能还需要提醒用户如果遇到权限问题,可能需要sudo或者将用户加入docker组。另外,检查Dockerfile中的内容是否完整,是否需要其他文件或上下文来构建镜像。如果Dockerfile来自GitHub,可能需要确认下载的URL是否正确,是否存在更新或变更。 最后,确保回答结构清晰,分步骤说明,每个步骤有对应的命令和解释,同时引用正确的来源。相关问题要覆盖用户可能遇到的后续疑问,帮助他们进一步解决问题。</think>### 如何用 Docker 部署 Mineru 服务 以下是基于引用内容的详细步骤说明: --- #### **步骤 1:获取 Dockerfile** 通过 `wget` 命令下载 MineruDockerfile(需确保服务器已安装 wget): ```bash wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile ``` 此文件定义了镜像的构建规则[^1]。 --- #### **步骤 2:构建 Docker 镜像** 使用下载的 Dockerfile 构建镜像,指定镜像名称为 `mineru:latest`: ```bash docker build -t mineru:latest . ``` 注意命令末尾的 `.` 表示当前目录为构建上下文[^1]。 --- #### **步骤 3:启动容器** 通过以下命令启动 Mineru 服务: ```bash docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models ``` - `--gpus=all`:启用 GPU 支持(需已安装 NVIDIA 容器工具包) - `-p 8888:8000`:将宿主机的 8888 端口映射到容器的 8000 端口(可自定义左侧端口)[^2] --- #### **步骤 4:验证部署** 1. 查看容器运行状态: ```bash docker ps -a | grep mineru_server ``` 2. 检查服务日志: ```bash docker logs mineru_server ``` --- ### **注意事项** 1. **Python 环境**:若需指定 Python 版本为 3.10,可在容器内使用 Conda 创建环境: ```bash conda create -n MinerU python=3.10 conda activate MinerU ``` 建议将此步骤写入 Dockerfile 以实现自动化[^3]。 2. **GPU 支持**:确保宿主机已安装 NVIDIA 驱动和 `nvidia-container-toolkit`。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农垦荒笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值