HTML解析与处理:从标签到属性的全方位实践
1. HTML标签解析与换行处理
在处理HTML文件时,标签剥离器的输出通常会去除标签,但会丢失一些必要的换行信息。不过,有一个例外是 <PRE>
元素,它会保留其内容中的所有空白字符。若想在输出中包含必要的换行和空白,可以通过检查标签和文本来实现。
1.1 触发换行的标签
一般来说,以下标签会触发不同类型的换行:
- 单换行: <BR>
、 <LI>
、 <TR>
- 双换行(段落换行): <P>
、 </H1>
、 </H2>
、 </H3>
、 </H4>
、 </H5>
、 </H6>
、 <HR>
、 <DIV>
、 </UL>
、 </OL>
、 </DL>
1.2 HTML.Tag类
HTML.Tag
是 javax.swing.text.html.H