计算机视觉_海绵波波107的博客-CSDN博客

计算机视觉

关注

文章平均质量分 71

OCR解析“”PDF等格式转化为Markdown

关注数：文章数：16 文章阅读量：14981 文章收藏量：171

作者: 海绵波波107

务必要疯狂地拥抱雄心，同时要疯狂地真诚 Gitcode地址：https://gitcode.com/qq_43920838

展开

专栏收录文章

基于OpenCV的cv2.solvePnP方法实现头部姿态估计

摘要：本文探讨了基于OpenCV的cv2.solvePnP方法实现头部姿态估计，以区分用户注视电脑屏幕或手机的行为。核心流程包括：1）通过2D面部特征点与预设3D模型点（需优化为解剖学准确模型）求解PnP问题；2）转换为欧拉角（俯仰角、偏航角、翻滚角）分析头部朝向。研究发现，手机使用与显著正向俯仰角相关，但需通过实验数据确定场景特异性阈值（如20°），而非依赖通用值。关键改进包括采用标定相机参数、优化3D模型及标准化角度提取方法，以提升系统鲁棒性。最终结合姿态分析与清晰度评分，实现用户注意力状态的可靠推断

原创 2025-08-01 16:40:33 · 680 阅读 · 0 评论
解读LISA：通过大型语言模型实现推理分割

LISA是一种突破性的多模态AI模型，开创性地将大型语言模型(LLM)的推理能力与图像分割任务结合，提出"推理分割"新范式。其核心创新在于"Embedding as Mask"机制，通过特殊_TOKEN将LLM的文本输出引导至像素级分割任务。模型采用高效微调策略，在少量专业数据训练下即展现出强大的零样本能力，在ReasonSeg基准测试中gIoU达64.2%。LISA不仅实现了对复杂语言指令的理解和精确分割，更推动了AI从感知智能向认知智能的跨越，为多模态交互开辟了新

原创 2025-08-01 11:24:00 · 910 阅读 · 0 评论
多目标跟踪——DeepSORT 算法

摘要：DeepSORT算法通过融合深度外观特征（CNN提取的128维Re-ID向量）与运动建模（卡尔曼滤波），显著提升了多目标跟踪在遮挡场景的鲁棒性，相比SORT算法ID切换率降低34%。其双模态关联机制结合马氏距离与余弦相似度优化匹配，后续变体（如HyperDeepSORT）通过自适应卡尔曼滤波和HyperNMS进一步优化性能。硬件部署中，边缘设备采用FP16量化或轻量化模型（如MobileNet）可平衡速度与精度，Jetson Orin Nano在能效比上表现突出。未来研究方向包括知识蒸馏压缩模型和光流

原创 2025-07-24 14:03:14 · 713 阅读 · 0 评论
人脸检测算法——SCRFD

SCRFD是一种高效人脸检测算法，通过双重重分配策略（样本重分配SR和计算重分配CR）实现性能优化。其特点包括：1）采用无锚框检测机制，基于FCOS实现边界框预测；2）通过NAS动态分配计算资源，优化骨干网络、特征金字塔和检测头的计算比例；3）支持多规格模型（0.5GF-34GF）和硬件加速（FP16/INT8量化）。在WIDERFACE数据集上，SCRFD-34GF以11.7ms推理延迟实现85.29%的Hard AP，性能优于RetinaFace。代码实现完整封装了图像预处理、模型推理和结果后处理流程，

原创 2025-07-18 22:55:45 · 923 阅读 · 0 评论
opencv、torch、torchvision、tensorflow的区别

非深度学习框架DataLoader。

原创 2025-07-17 13:04:35 · 1197 阅读 · 0 评论
【复盘】大批数据清洗前如何进行数据认知

在批量数据处理前先对数据有一些基本的了解，再去动手处理，会提高效率，而且能够避免一些踩坑带来的时间成本。下面说一些数据认知的方法。

原创 2025-03-24 20:28:10 · 894 阅读 · 0 评论
【工程实践/源码阅读】批量文件处理步骤以及如何并行处理

需要对3000份文件进行处理，内容、文件名不是很标准，而且文件类型多种多样，需要统一转成PDF，再从PDF解析为markdown。再各个处理的阶段，也会带来一些脏数据，比如doc转PDF的时候，就可能有部分doc转换失败。在数据处理过程中，往往会形成一些超大文件（这些文件中可能是乱码），这些文件如果不处理会影响后续的处理效率。排序完查看一下大文件和小文件，是不是最大文件是处理后乱码变成脏数据，还有最小文件是不是空白页没有进行处理。这里是估计了一下超过9页的文件可能是一个脏数据，然后就删除。

原创 2025-03-23 22:08:40 · 515 阅读 · 0 评论
【记录】并行运行olmocr把服务器跑崩

之前有一篇博客讲的并行脚本来处理，但发现这个olmocr光多GPU运行不管用，因为只开了一个30024端口，这些8个GPU仍然要争抢一个端口，其实质上还是串行的，那修改的思路就是，我开8个端口，每个端口对应一张卡，那是不是就能够彻底地并行运行了。好吧都是自己吓自己，不过到机房的时候，服务器确实卡死机了，我给他强制关机然后重新启动了。对olmocr的源码进行了修改，原先源码中端口是一个全局变量在最开始初始化定义了30024的端口，现在把他给改成可以接受命令行传过来的参数。8个卡两个端口，还是跑不成功。

原创 2025-03-22 14:43:47 · 457 阅读 · 0 评论
【源码阅读/工程实践】并行运行10张GPU榨干算力

之前的还是串行，是因为在for循环中，每次执行下一个python文件都需要等待上一批的处理做完，这里可以有一种异步的方式，就是选定了GPU张数之后让命令在后台运行，这样就不用等待，会迅速接下一个python文件的执行。每次执行python文件都是新开一个进程用不一样的GPU环境，互相不冲突。有3000份PDF需要OCR解析，原有的项目是用命令行来执行的。将初始的数据文件等分成10份，用args来获取外部给的参数，并切换到对应的第几份文件上。都跑起来了，不浪费一点两台服务器的算力资源，全是中国红。

原创 2025-03-19 19:13:27 · 1073 阅读 · 0 评论
【工具/调研】各种类型文件转PDF

LibreOffice 是一个免费的开源办公套件，支持将 .doc 文件转换为 .pdf。

原创 2025-03-17 13:12:47 · 623 阅读 · 0 评论
MinerU（3）:指定单张显卡与多张显卡效果对比

一般来说，启动服务前增加 CUDA_VISIBLE_DEVICES=0指定只使用第一张显卡，CUDA_VISIBLE_DEVICES=0,2 使用第1、3 张显卡，这样能对比增加显卡数量是否加速；

原创 2024-12-16 10:43:55 · 1319 阅读 · 1 评论
PDF-Extract-Kit

环境安装conda create -n pdf-extract-kit-1.0 python=3.10conda activate pdf-extract-kit-1.0pip install -r requirements.txt网有点卡，每次下到一半就停了，回宿舍再试试模型权重下载官网huggingface-cli download --resume-download opendatalab/PDF-Extract-Kit-1.0 --local-dir .这个项目好像只能实现简

原创 2024-12-16 20:49:24 · 534 阅读 · 0 评论
docling：PDF解析

缺少.pth文件，是去modelscope官网下载。

原创 2024-12-19 10:38:57 · 916 阅读 · 5 评论
【部署】ubuntu部署olmOCR

libnccl.so.2 是 NVIDIA 的 NCCL（NVIDIA Collective Communications Library）库的一部分，通常用于多 GPU 通信。这是 CUDA 工具包的一部分，通常在安装 CUDA toolkit 时应该包含这个库。从报错信息来看，问题出在 pip install -e . 时无法创建 olmocr.egg-info 目录，原因是权限不足（Permission denied）。启动运行命令之后会安装模型权重文件，十几个G，还是很大的。

原创 2025-03-14 17:16:15 · 2298 阅读 · 5 评论
MinerU（2）:GPU加速

GPU是0.36页每秒，大概1页3秒不到，而CPU一页是30-60s，确实至少10倍的速度提升。和之前一样的demo1.pdf速度对比，平均0.36页每秒，之前是一页30s。GPU加速效率提升上与CPU相比十分显著，大概十几倍的速度提升？速度确实提升了十几倍，每个GPU占用率大概是30以下。layout.pdf，将不同的元素用不同颜色框。可能是vscode能自己切换Python环境。发现在vscode中能查看到版本，但是到虚拟机，同样的目录下查不到。在这个环境下，就能够查看得到版本。查看了一下版本，确实。

原创 2024-12-13 10:43:38 · 1492 阅读 · 3 评论
【调研】olmOCR解析PDF

效果上，olmOCR解析得到的内容排版更加清晰整齐，而且对于6份GOT-OCR有重复的测试例子，olmOCR有明显的更好的无重复的效果。可以后续采用部署olmOCR来替代GOT-OCR。将最底下没有文字的部分，可能是样式解析出重复。速度上，olmOCR效果更快。

原创 2025-03-12 10:17:34 · 452 阅读 · 0 评论

计算机视觉

作者: 海绵波波107

基于OpenCV的cv2.solvePnP方法实现头部姿态估计

解读LISA：通过大型语言模型实现推理分割

多目标跟踪——DeepSORT 算法

人脸检测算法——SCRFD

opencv、torch、torchvision、tensorflow的区别

【复盘】大批数据清洗前如何进行数据认知

【工程实践/源码阅读】批量文件处理步骤以及如何并行处理

【记录】并行运行olmocr把服务器跑崩

【源码阅读/工程实践】并行运行10张GPU榨干算力

【工具/调研】各种类型文件转PDF

MinerU（3）:指定单张显卡与多张显卡效果对比

PDF-Extract-Kit

docling：PDF解析

【部署】ubuntu部署olmOCR

MinerU（2）:GPU加速

【调研】olmOCR解析PDF