字节开源的多模态端到端文档解析模型-Dolphin

最新推荐文章于 2025-08-04 09:15:04 发布

大模型教程

最新推荐文章于 2025-08-04 09:15:04 发布

阅读量663

点赞数 28

CC 4.0 BY-SA版权

文章标签：人工智能程序员产品经理学习大模型多模态 AI大模型

本文链接：https://blog.csdn.net/2401_84204207/article/details/148383319

下面来看一下字节最新开源的多模态文档解析方案，笔者实际测下来性能还有待提升（鉴于合成数据，泛化性还较差，存在幻觉），不过思路可以借鉴下，供参考。

Dolphin性能

创新点

两阶段解析架构：Dolphin采用了分析-解析范式，首先进行页面级布局分析，生成结构化布局元素序列，然后在第二阶段通过异构锚点提示进行并行内容解析。
端到端的文档解析，模型参数量小（300M+），易于落地
提供了数据合成的思路，大规模数据增强模型的泛化能力
提供了位置坐标，通过并行解析的方式加快了解析速度

模型架构与方法

Dolphin 的两阶段文档图像解析范式概述

模型架构

类似donut，基于VisionEncoderDecoderModel架构，视觉编码器：donut-swin + 解码器：mbart，因此可以看出，模型侧并没有什么创新，创新点主要在于数据构建策略上。

方法

分两个阶段：

1.1 第一阶段：页面级布局分析

(1) 图像编码（Page Image Encoding）

使用 Swin Transformer 提取文档图像的视觉特征，输出形状为，其中：
- d 是嵌入维度
- N 是图像被分割的 patch 数量
输入图像会被 调整大小并填充 到固定尺寸（如 896×896），以保持长宽比，避免文本变形。

(2) 布局序列生成（Layout Sequence Generation）

使用 mBart 解码器，在 布局分析提示（Playout） 的引导下，按阅读顺序生成文档元素的序列 L = {l₁, l₂, ..., lₙ}，其中每个元素 lᵢ 包含：
- 类型（如文本段落、表格、公式）
- 边界框（bounding box）

提示示例：

Parse the reading order of this document.

1.2 第二阶段：元素级内容解析

(1) 元素图像编码（Element Image Encoding）：对第一阶段提取的每个元素 lᵢ，从原图中裁剪出对应的区域 Iᵢ，并用 Swin Transformer 编码，得到该元素的视觉特征。

(2) 并行内容解析（Parallel Content Parsing）：对每个裁剪后的元素图像 Iᵢ，结合 特定类型的提示（pᵢ），由解码器并行生成解析结果：

表格 → 使用 P_table 提示，解析为 HTML 格式
公式 → 使用 P_paragraph 提示（与文本段落相同），解析为 LaTeX 格式
文本段落 → 使用 P_paragraph 提示，解析为纯文本
提示示例：
表格解析：Parse the table in the image.
文本/公式解析：Read text in the image.

小结：并行解码的优势：并行处理多个元素，比串行解析更快（实验显示速度提升 ~2×）。每个元素的解析独立进行，减少长序列建模的误差累积。

1.3. 数据集构建

Dolphin 使用 3000万+ 样本 进行训练，涵盖多种文档类型和解析任务：

数据来源

混合文档：教育材料（试卷、教材）、出版物（杂志、报纸）、商业文档（PPT、报告）。
HTML：从维基百科渲染生成，增强视觉多样性。
LaTeX：从 arXiv 论文提取，保留结构信息。
Markdown：从 GitHub 渲染，支持表格和公式。
表格 & 公式：PubTabNet、PubTab1M（表格）、arXiv 公式（LaTeX 渲染）。

实验性能

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓