itextpdf读取pdf宽高问题

在使用itextpdf读取文档宽高的时候,大多数代码都是这样的:

Rectangle page = reader.getPageSize(pageNum);
float width = page.getWidth();
float height = page.getHeight();
int rotation = page.getRotation();

这样读取的,对于标准pdf如A4等,数据是正确的,但如果pdf中存在裁剪框等,pdf尺寸将会发生变化,根据 reader = new PdfReader(input);的reader提供属性
在这里插入图片描述
可以看到cropbox和mediabox两个属性值不同,采用如下代码

Rectangle cropBox = reader.getCropBox(1);
float width = cropBox.getWidth();
float height = cropBox.getHeight();
int rotation = reader.getPageRotation(1);

其中1代表当前页面,通过该参数打印的将是pdf的正常尺寸,这在与前端读取尺寸获取坐标的时候,将会是一致的,此外,pdf会有旋转的隐藏属性rotation,需要根据该旋转角度,修正pdf的宽高

	if (rotation == 270 || rotation == 90) {
		log.debug("当前pdf:{} 页码:{} 已被旋转:{}", signFileDto.getFileId(), pageNum, rotation);
	} else {
	}

具体可以参考pdf的属性:

MediaBox用来描述页面的高度和宽度。对于普通用户,这个大小很可能等同于实际的页面大小。对于用于印前处理,就不太适合,因为我们更希望将页面定义得稍微大一点以便让我们看到页面的bleed(bleed是什么?下面有解释,国外的一个网站介绍的)、裁剪标记和有用的信息比如文件名或者文件创建的时间日期。这就意味着用于图形印刷品的PDF通常其MediaBox比裁剪页面大小稍大。MediaBox是一个页面中最大的box。其他的box可以和它一样大,但绝不可以比它大。
CropBox 定义了页面内容的裁剪到区域.Adobe Acrobat软件使用这个来显示和打印页面.
如果用于印前处理,这个box就太不着调了. GWG工业协会建议完全不要使用CropBox。 BleedBox
定义了当用于生产环境时页面内容将被裁剪到的区域。通常BleedBox比TrimBox大3到5毫米。知道BleedBox的大小是很有必要的,但是在图形产品中这个box不是很重要。多数印前处理系统允许你设定bleed的大小从而忽略BleedBox。默认情况下,BleedBox与CropBox相等。
TrimBox
定义了最终页面想要的尺寸。与CropBox相反,TrimBox非常重要,因为它定义了页面的实际大小。我所知道的所有的装版和工作流都使用TrimBox作为压印机上的页面定位基准。默认情况下,TrimBox与CropBox相等。当创建PDF/X-1a
或者 PDF/X-3兼容PDF文件时,系统要求MediaBox, TrimBox 和 BleedBox必须被正确地定义。 ArtBox
有点特殊。它定义了某些特殊用途的页面中的区域。它很少被程序用到。有一种情况会使用到它是在控制页面广告。如果一个页面有广告,那么ArtBox定义了广告区域的大小。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA
版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.csdn.net/fghler/article/details/107456819

在使用 iTextPDF 读取 PDF 文档中的段落和页码信息时,可以通过 `PdfDocument` 和 `PdfReader` 类来实现。iTextPDF 提供了对 PDF 文档内容的结构化访问,允许开发者逐页读取内容并提取文本段落和页码等信息。 ### 读取 PDF 文档的页码 可以通过 `PdfDocument` 对象获取文档的总页数,并在遍历每一页时获取当前页码。 ```java PdfDocument pdfDoc = new PdfDocument(new PdfReader("input.pdf")); int totalPages = pdfDoc.getNumberOfPages(); System.out.println("Total Pages: " + totalPages); ``` ### 读取每一页的段落内容 为了提取段落信息,可以使用 `PdfTextExtractor` 类,它提供了从 PDF 页面中提取文本的功能。通过遍历每一页并提取文本,可以将内容按段落进行分割。 ```java for (int pageNumber = 1; pageNumber <= pdfDoc.getNumberOfPages(); pageNumber++) { String pageText = PdfTextExtractor.getTextFromPage(pdfDoc.getPage(pageNumber)); System.out.println("Page Number: " + pageNumber); System.out.println("Content: " + pageText); } ``` ### 处理段落分割 PDF 文档中的段落通常由换行符或空行分隔。可以通过对提取的文本按行处理,并根据空行将文本划分为多个段落。 ```java String[] lines = pageText.split("\\r?\\n"); List<String> paragraphs = new ArrayList<>(); StringBuilder currentParagraph = new StringBuilder(); for (String line : lines) { if (line.trim().isEmpty()) { if (currentParagraph.length() > 0) { paragraphs.add(currentParagraph.toString()); currentParagraph.setLength(0); } } else { currentParagraph.append(line).append(" "); } } if (currentParagraph.length() > 0) { paragraphs.add(currentParagraph.toString()); } ``` ### 完整代码示例 以下是一个完整的代码示例,展示了如何读取 PDF 文档的每一页,并提取段落和页码信息。 ```java import com.itextpdf.kernel.pdf.PdfDocument; import com.itextpdf.kernel.pdf.PdfReader; import com.itextpdf.kernel.pdf.canvas.parser.PdfTextExtractor; import java.util.ArrayList; import java.util.List; public class PdfParagraphReader { public static void main(String[] args) { try { PdfDocument pdfDoc = new PdfDocument(new PdfReader("input.pdf")); for (int pageNumber = 1; pageNumber <= pdfDoc.getNumberOfPages(); pageNumber++) { String pageText = PdfTextExtractor.getTextFromPage(pdfDoc.getPage(pageNumber)); System.out.println("Page Number: " + pageNumber); String[] lines = pageText.split("\\r?\\n"); List<String> paragraphs = new ArrayList<>(); StringBuilder currentParagraph = new StringBuilder(); for (String line : lines) { if (line.trim().isEmpty()) { if (currentParagraph.length() > 0) { paragraphs.add(currentParagraph.toString().trim()); currentParagraph.setLength(0); } } else { currentParagraph.append(line).append(" "); } } if (currentParagraph.length() > 0) { paragraphs.add(currentParagraph.toString().trim()); } for (String paragraph : paragraphs) { System.out.println("Paragraph: " + paragraph); } } pdfDoc.close(); } catch (Exception e) { e.printStackTrace(); } } } ``` ### 注意事项 - **依赖库**:确保项目中已引入 iTextPDF 的依赖库(如 iText 7)。 - **性能优化**:对于大型 PDF 文件,建议优化文本提取逻辑以提性能。 - **格式保留**:PDF 中的段落格式可能不规则,需根据具体需求进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值