
计算机视觉
文章平均质量分 71
OCR解析“”PDF等格式转化为Markdown
海绵波波107
务必要疯狂地拥抱雄心,同时要疯狂地真诚
Gitcode地址:https://gitcode.com/qq_43920838
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于OpenCV的cv2.solvePnP方法实现头部姿态估计
摘要: 本文探讨了基于OpenCV的cv2.solvePnP方法实现头部姿态估计,以区分用户注视电脑屏幕或手机的行为。核心流程包括:1)通过2D面部特征点与预设3D模型点(需优化为解剖学准确模型)求解PnP问题;2)转换为欧拉角(俯仰角、偏航角、翻滚角)分析头部朝向。研究发现,手机使用与显著正向俯仰角相关,但需通过实验数据确定场景特异性阈值(如20°),而非依赖通用值。关键改进包括采用标定相机参数、优化3D模型及标准化角度提取方法,以提升系统鲁棒性。最终结合姿态分析与清晰度评分,实现用户注意力状态的可靠推断原创 2025-08-01 16:40:33 · 680 阅读 · 0 评论 -
解读LISA:通过大型语言模型实现推理分割
LISA是一种突破性的多模态AI模型,开创性地将大型语言模型(LLM)的推理能力与图像分割任务结合,提出"推理分割"新范式。其核心创新在于"Embedding as Mask"机制,通过特殊_TOKEN将LLM的文本输出引导至像素级分割任务。模型采用高效微调策略,在少量专业数据训练下即展现出强大的零样本能力,在ReasonSeg基准测试中gIoU达64.2%。LISA不仅实现了对复杂语言指令的理解和精确分割,更推动了AI从感知智能向认知智能的跨越,为多模态交互开辟了新原创 2025-08-01 11:24:00 · 910 阅读 · 0 评论 -
多目标跟踪——DeepSORT 算法
摘要:DeepSORT算法通过融合深度外观特征(CNN提取的128维Re-ID向量)与运动建模(卡尔曼滤波),显著提升了多目标跟踪在遮挡场景的鲁棒性,相比SORT算法ID切换率降低34%。其双模态关联机制结合马氏距离与余弦相似度优化匹配,后续变体(如HyperDeepSORT)通过自适应卡尔曼滤波和HyperNMS进一步优化性能。硬件部署中,边缘设备采用FP16量化或轻量化模型(如MobileNet)可平衡速度与精度,Jetson Orin Nano在能效比上表现突出。未来研究方向包括知识蒸馏压缩模型和光流原创 2025-07-24 14:03:14 · 713 阅读 · 0 评论 -
人脸检测算法——SCRFD
SCRFD是一种高效人脸检测算法,通过双重重分配策略(样本重分配SR和计算重分配CR)实现性能优化。其特点包括:1)采用无锚框检测机制,基于FCOS实现边界框预测;2)通过NAS动态分配计算资源,优化骨干网络、特征金字塔和检测头的计算比例;3)支持多规格模型(0.5GF-34GF)和硬件加速(FP16/INT8量化)。在WIDERFACE数据集上,SCRFD-34GF以11.7ms推理延迟实现85.29%的Hard AP,性能优于RetinaFace。代码实现完整封装了图像预处理、模型推理和结果后处理流程,原创 2025-07-18 22:55:45 · 923 阅读 · 0 评论 -
opencv、torch、torchvision、tensorflow的区别
非深度学习框架DataLoader。原创 2025-07-17 13:04:35 · 1197 阅读 · 0 评论 -
【复盘】大批数据清洗前如何进行数据认知
在批量数据处理前先对数据有一些基本的了解,再去动手处理,会提高效率,而且能够避免一些踩坑带来的时间成本。下面说一些数据认知的方法。原创 2025-03-24 20:28:10 · 894 阅读 · 0 评论 -
【工程实践/源码阅读】批量文件处理步骤以及如何并行处理
需要对3000份文件进行处理,内容、文件名不是很标准,而且文件类型多种多样,需要统一转成PDF,再从PDF解析为markdown。再各个处理的阶段,也会带来一些脏数据,比如doc转PDF的时候,就可能有部分doc转换失败。在数据处理过程中,往往会形成一些超大文件(这些文件中可能是乱码),这些文件如果不处理会影响后续的处理效率。排序完查看一下大文件和小文件,是不是最大文件是处理后乱码变成脏数据,还有最小文件是不是空白页没有进行处理。这里是估计了一下超过9页的文件可能是一个脏数据,然后就删除。原创 2025-03-23 22:08:40 · 515 阅读 · 0 评论 -
【记录】并行运行olmocr把服务器跑崩
之前有一篇博客讲的并行脚本来处理,但发现这个olmocr光多GPU运行不管用,因为只开了一个30024端口,这些8个GPU仍然要争抢一个端口,其实质上还是串行的,那修改的思路就是,我开8个端口,每个端口对应一张卡,那是不是就能够彻底地并行运行了。好吧都是自己吓自己,不过到机房的时候,服务器确实卡死机了,我给他强制关机然后重新启动了。对olmocr的源码进行了修改,原先源码中端口是一个全局变量在最开始初始化定义了30024的端口,现在把他给改成可以接受命令行传过来的参数。8个卡两个端口,还是跑不成功。原创 2025-03-22 14:43:47 · 457 阅读 · 0 评论 -
【源码阅读/工程实践】并行运行10张GPU榨干算力
之前的还是串行,是因为在for循环中,每次执行下一个python文件都需要等待上一批的处理做完,这里可以有一种异步的方式,就是选定了GPU张数之后让命令在后台运行,这样就不用等待,会迅速接下一个python文件的执行。每次执行python文件都是新开一个进程用不一样的GPU环境,互相不冲突。有3000份PDF需要OCR解析,原有的项目是用命令行来执行的。将初始的数据文件等分成10份,用args来获取外部给的参数,并切换到对应的第几份文件上。都跑起来了,不浪费一点两台服务器的算力资源,全是中国红。原创 2025-03-19 19:13:27 · 1073 阅读 · 0 评论 -
【工具/调研】各种类型文件转PDF
LibreOffice 是一个免费的开源办公套件,支持将 .doc 文件转换为 .pdf。原创 2025-03-17 13:12:47 · 623 阅读 · 0 评论 -
MinerU(3):指定单张显卡与多张显卡效果对比
一般来说,启动服务前增加 CUDA_VISIBLE_DEVICES=0指定只使用第一张显卡,CUDA_VISIBLE_DEVICES=0,2 使用第1、3 张显卡,这样能对比增加显卡数量是否加速;原创 2024-12-16 10:43:55 · 1319 阅读 · 1 评论 -
PDF-Extract-Kit
环境安装conda create -n pdf-extract-kit-1.0 python=3.10conda activate pdf-extract-kit-1.0pip install -r requirements.txt网有点卡,每次下到一半就停了,回宿舍再试试模型权重下载官网huggingface-cli download --resume-download opendatalab/PDF-Extract-Kit-1.0 --local-dir .这个项目好像只能实现简原创 2024-12-16 20:49:24 · 534 阅读 · 0 评论 -
docling:PDF解析
缺少.pth文件,是去modelscope官网下载。原创 2024-12-19 10:38:57 · 916 阅读 · 5 评论 -
【部署】ubuntu部署olmOCR
libnccl.so.2 是 NVIDIA 的 NCCL(NVIDIA Collective Communications Library)库的一部分,通常用于多 GPU 通信。这是 CUDA 工具包的一部分,通常在安装 CUDA toolkit 时应该包含这个库。从报错信息来看,问题出在 pip install -e . 时无法创建 olmocr.egg-info 目录,原因是 权限不足(Permission denied)。启动运行命令之后会安装模型权重文件,十几个G,还是很大的。原创 2025-03-14 17:16:15 · 2298 阅读 · 5 评论 -
MinerU(2):GPU加速
GPU是0.36页每秒,大概1页3秒不到,而CPU一页是30-60s,确实至少10倍的速度提升。和之前一样的demo1.pdf速度对比,平均0.36页每秒,之前是一页30s。GPU加速效率提升上与CPU相比十分显著,大概十几倍的速度提升?速度确实提升了十几倍,每个GPU占用率大概是30以下。layout.pdf,将不同的元素用不同颜色框。可能是vscode能自己切换Python环境。发现在vscode中能查看到版本,但是到虚拟机,同样的目录下查不到。在这个环境下,就能够查看得到版本。查看了一下版本,确实。原创 2024-12-13 10:43:38 · 1492 阅读 · 3 评论 -
【调研】olmOCR解析PDF
效果上,olmOCR解析得到的内容排版更加清晰整齐,而且对于6份GOT-OCR有重复的测试例子,olmOCR有明显的更好的无重复的效果。可以后续采用部署olmOCR来替代GOT-OCR。将最底下没有文字的部分,可能是样式解析出重复。速度上,olmOCR效果更快。原创 2025-03-12 10:17:34 · 452 阅读 · 0 评论