Python XML文件操作实战教程

BOBO爱吃菠萝

于 2025-05-22 09:59:16 发布

阅读量1k

点赞数 26

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/weixin_36487018/article/details/148152474

本文还有配套的精品资源，点击获取

简介：XML作为一种标记语言，在IT行业中用于数据存储和传输，易于在不同系统间交换数据。Python通过其库如 xml.etree.ElementTree ，提供了一套完善的API来实现XML文件的读取和写入。本教程深入探讨了这些知识点，并通过具体的Python代码示例 generate_xml.py 和 read_xml.py ，配合参考文件 test.xml ，指导开发者如何操作XML文件。 Python读写XML文件实例

1. Python处理XML文件简介

在数据交换和存储的领域中，XML（可扩展标记语言）仍然是一种流行的数据格式。Python作为一门强大的编程语言，其对XML的处理能力是任何开发者工具箱中不可或缺的一部分。在这一章中，我们将对Python如何处理XML文件做一个全面的概述，为接下来章节的深入探讨打下基础。我们会从基础的XML知识开始，逐步深入到Python特定模块的使用，包括创建、读取、解析和编写XML文件，让你能够利用Python来高效地处理XML数据。通过本章节的学习，读者将对Python在XML处理方面的应用有一个全面的理解，为进一步的专业应用打下坚实的基础。

2. xml.etree.ElementTree库介绍

2.1 ElementTree库概述

2.1.1 ElementTree库的历史和特点

xml.etree.ElementTree 是 Python 的标准库之一，自 Python 2.5 版本开始内置，它为 XML 数据的处理提供了一系列方便的工具。ElementTree 作为 XML 解析器，具有轻量级、易于使用和快速的优点，已经成为处理 XML 文件的首选库之一。

ElementTree 的主要特点包括： - 对象模型 ：它提供了一个简单而直观的对象模型，通过树状结构来表示 XML 文档，其中每个节点都是一个元素对象。 - 内存效率 ：与传统的 DOM 解析器相比，ElementTree 在内存使用上更加高效，因为它采用了延迟解析技术，不会一次性将整个文档加载到内存中。 - 速度：它的性能在许多基准测试中显示出极佳的速度优势。 - 标准支持 ：ElementTree 符合 W3C 的 DOM Level 2 的核心部分标准，并且还支持 XPath 查询和 XML 的命名空间。

2.1.2 ElementTree库的安装和配置

由于 ElementTree 是 Python 的标准库，因此在大多数情况下，不需要单独安装即可直接使用。对于 Python 2.5 及以上版本，ElementTree 已经被内置在标准库中，所以你可以直接通过 import xml.etree.ElementTree 来导入库并开始使用。

如果你使用的是 Python 2.5 之前的版本，你可能需要安装一个兼容的第三方库，例如 lxml ，这是一个提供 ElementTree 接口的库，能够提供比标准库更快的性能和更多的功能。

在 Python 3 中，ElementTree 的 API 经历了细微的变动以适应新的语言特性，但整体的使用方式保持一致。在使用前，建议查阅最新的官方文档，了解具体的 API 变更。

2.2 ElementTree库的模块组成

2.2.1 ElementTree模块

xml.etree.ElementTree 模块是 ElementTree 库的主要入口点。它提供了解析和创建 XML 文档的方法。使用这个模块，开发者可以创建新的 XML 树，或者从字符串、文件或网络连接中解析出 XML 树结构。

一个典型的 ElementTree 用法包括以下几个步骤： 1. 解析 XML 数据，通常使用 ET.parse() 方法。 2. 通过树结构的根节点，使用 find() 或 findall() 方法来查询 XML 元素。 3. 修改或提取所需的信息。 4. 如果需要，将修改后的树结构输出为 XML 字符串或写入到文件中。

2.2.2 Element模块

Element 模块提供了具体表示 XML 树结构的元素类。元素对象由标签、属性和内容组成。每个元素都有子元素，可以使用 append() , extend() , insert() 等方法对子元素进行添加和排序。

使用 Element 类可以创建新的 XML 元素。例如：

from xml.etree.ElementTree import Element

root = Element('root')
child = Element('child')
root.append(child)

这段代码创建了一个包含单个子元素的 XML 树。

2.2.3 iterparse和SubElement模块的使用

iterparse() 是一个非常实用的函数，它提供了解析大型 XML 文档的能力，同时对内存的消耗非常小。 iterparse() 可以逐个处理 XML 文档中的元素，这样就可以在解析的过程中逐渐构建出树结构，而不需要一次性加载整个文档到内存中。

SubElement 是一个辅助函数，用于在已有的元素下创建新的子元素，它有助于简化元素的添加过程。

from xml.etree.ElementTree import SubElement

# 假设我们已经有了一个父元素 parent
parent = Element('parent')

# 现在我们要添加一个名为 'child' 的子元素
child = SubElement(parent, 'child')

SubElement 的第一个参数是父元素，第二个参数是要添加的子元素的标签名。

下面的例子展示了如何使用 iterparse() 来解析一个大型的 XML 文件，同时利用 SubElement 添加新的子元素：

import xml.etree.ElementTree as ET

for event, elem in ET.iterparse('large_file.xml', events=('start', 'end')):
    if event == 'end' and elem.tag == 'item':
        # 当处理到结束标签为 'item' 的元素时
        # 可以在这里进行元素处理
        print(elem)
        # 清理内存，移除已经处理过的元素
        elem.clear()

这个例子中， iterparse() 以一个事件流的形式返回元素，事件类型包括 'start' 和 'end'，分别表示元素的开始和结束。这样我们就可以逐个处理 XML 文件中的元素，而不需要将整个文件加载到内存中。

接下来，我们可以结合实际案例，进一步了解 ElementTree 在处理 XML 数据方面的具体应用和优势。

3. ElementTree和Element模块使用

3.1 创建XML树结构

3.1.1 使用ElementTree创建元素

ElementTree库允许我们方便地创建XML元素，并将这些元素组装成树状结构。要使用 ElementTree 创建元素，首先需要从 xml.etree.ElementTree 模块导入 ElementTree 类。

下面展示的是创建一个简单的XML树结构的示例代码：

from xml.etree.ElementTree import ElementTree, Element

# 创建一个根元素
root = Element('company')

# 创建子元素
department = Element('department')
department.set('name', 'Development')

# 创建员工元素
employee = Element('employee')
employee.set('id', '001')
employee.text = 'John Doe'

# 将子元素添加到根元素中
root.append(department)

# 将员工元素添加到部门元素中
department.append(employee)

# 使用ElementTree类创建树结构
tree = ElementTree(root)

# 保存到文件
tree.write('company.xml', encoding='utf-8', xml_declaration=True)

在此代码段中，我们首先创建了一个名为 company 的根元素。之后，我们创建了一个名为 department 的子元素，并通过 set 方法添加了一个属性 name 。然后，我们创建了一个名为 employee 的元素，并为其设置了 id 属性，并添加了文本内容。这些元素被递归地添加到它们的父元素中，形成了一个结构化树。最后，我们使用 ElementTree 类将这个树写入到一个名为 company.xml 的文件中。

3.1.2 使用Element创建元素

除了使用 ElementTree 来创建树，我们还可以单独使用 Element 类来创建树中的元素。 Element 类提供了一个构造函数，允许我们直接创建元素并为其设置属性和文本。以下是如何单独使用 Element 类来构建相同结构的例子：

from xml.etree.ElementTree import Element

# 创建一个根元素
root = Element('company')

# 创建子元素和员工元素，并设置属性和文本
department = Element('department')
department.set('name', 'Development')

employee = Element('employee', id='001')
employee.text = 'John Doe'

# 将子元素和员工元素组装到树结构中
root.append(department)
department.append(employee)

# 此处，我们不使用ElementTree实例来保存，而是直接操作Element对象
# 可以根据需要将根元素转换成XML字符串或写入文件等

在这个例子中，我们使用 Element 类创建了所有的元素，并直接对元素进行了组装。与使用 ElementTree 不同，我们没有创建一个 ElementTree 对象，而是仅仅操作 Element 对象。这种方式在你需要处理单个元素或需要在程序的其他部分进一步操作元素时非常有用。

在处理XML结构时， ElementTree 和 Element 类提供了强大的工具来创建和管理XML结构，使得在Python中操作XML变得直观和简洁。

4. 如何用Python编写XML文件

编写XML文件是数据分析和交换过程中一个重要的步骤。Python提供了一个强大的库，xml.etree.ElementTree，用于创建和处理XML数据。本章将重点介绍如何使用ElementTree和Element模块来编写简单的XML文件，以及如何使用iterparse模块来编写复杂或大型的XML文件。我们会从基础到高级应用逐步深入，确保读者能够全面掌握Python编写XML的技巧。

4.1 编写简单XML文件

4.1.1 使用ElementTree模块编写XML

ElementTree模块提供了一个高级接口用于处理XML文件，使得编写简单XML文件变得轻而易举。我们首先看一个基础的例子，创建一个简单的图书信息XML文件。

import xml.etree.ElementTree as ET

# 创建根节点
root = ET.Element("library")

# 创建书本节点
book = ET.SubElement(root, "book", title="XML Programming", author="John Doe", year="2021")

# 创建并添加章节节点
chapter1 = ET.SubElement(book, "chapter", title="Introduction to XML")
chapter1.text = "This is the introduction to XML chapter."

# 创建并添加章节节点
chapter2 = ET.SubElement(book, "chapter", title="ElementTree in Action")
chapter2.text = "This chapter covers ElementTree module."

# 将创建的XML树写入文件
tree = ET.ElementTree(root)
tree.write("simple_book.xml", encoding="utf-8", xml_declaration=True)

上面的代码首先导入了xml.etree.ElementTree模块，并且创建了一个根节点 library 。然后，它添加了一个名为 book 的子节点，并且为这个节点设置了几个属性。随后，代码继续添加了两个子节点 chapter ，并给它们分别添加了文本内容。最后，使用 ElementTree 对象的 write 方法将生成的XML树写入到文件 s simple_book.xml 中。

4.1.2 使用Element模块编写XML

Element模块允许我们更细粒度地控制XML结构的创建。下面是一个使用Element模块来创建同样结构XML文件的例子：

import xml.etree.ElementTree as ET

# 创建根节点
root = ET.Element("library")

# 创建书本元素
book = ET.Element("book")
book.set("title", "XML Programming")
book.set("author", "John Doe")
book.set("year", "2021")

# 创建章节元素并设置内容
chapter1 = ET.SubElement(book, "chapter", title="Introduction to XML")
chapter1.text = "This is the introduction to XML chapter."

# 创建章节元素并设置内容
chapter2 = ET.SubElement(book, "chapter", title="ElementTree in Action")
chapter2.text = "This chapter covers ElementTree module."

# 将book元素添加到root元素
root.append(book)

# 将创建的XML树写入文件
tree = ET.ElementTree(root)
tree.write("simple_book_element.xml", encoding="utf-8", xml_declaration=True)

在这段代码中，我们使用了 set 方法为 book 元素设置了属性，并且利用 append 方法将 book 元素添加到了 root 元素中。其它部分的代码逻辑与使用 ElementTree 模块是类似的。

4.2 编写复杂XML文件

4.2.1 使用iterparse模块动态构建XML

当需要处理大型的XML文件时，直接一次性构建整个XML树可能会导致内存溢出。这时，我们可以使用iterparse模块，它允许我们边解析边构建XML树，有效地减少内存的使用。

import xml.etree.ElementTree as ET

# 打开文件并使用iterparse进行解析
context = ET.iterparse('large_book.xml', events=('start', 'end'))
_, root = next(context)  # 获取根节点

for event, elem in context:
    if event == 'end' and elem.tag == 'book':
        # 处理书本元素
        print(f"Book title: {elem.get('title')}")
        # 将书本元素添加到根节点
        root.append(elem)
        # 清除已处理的元素，释放内存
        elem.clear()

# 将创建的XML树写入文件
tree = ET.ElementTree(root)
tree.write("complex_book.xml", encoding="utf-8", xml_declaration=True)

在上述代码中，我们使用 iterparse 方法创建了一个XML解析器，并指定了监听事件为开始标签('start')和结束标签('end')。通过遍历解析器返回的事件，我们能够逐个处理XML文件中的书本元素，并且在处理完毕后立即释放该元素所占用的内存。

4.2.2 实现属性和命名空间的处理

在处理复杂的XML文件时，经常需要处理属性和命名空间。Python的ElementTree库对此提供了支持。下面是一个例子，演示了如何在编写XML文件时处理命名空间和属性。

import xml.etree.ElementTree as ET

# 定义命名空间
NS = {'bib': 'http://www.example.com/ns/book'}

# 创建根节点
root = ET.Element(ET.QName('bib', 'library'))

# 创建书本节点，并添加命名空间前缀
book = ET.SubElement(root, ET.QName('bib', 'book'))
book.set(ET.QName('bib', 'title'), "XML Programming")
book.set(ET.QName('bib', 'author'), "John Doe")
book.set(ET.QName('bib', 'year'), "2021")

# 创建章节节点，并添加命名空间前缀
chapter = ET.SubElement(book, ET.QName('bib', 'chapter'), title="Introduction to XML")
chapter.text = "This is the introduction to XML chapter."

# 创建命名空间字典
namespaces = {'bib': 'http://www.example.com/ns/book'}

# 将创建的XML树写入文件
tree = ET.ElementTree(root)
tree.write("namespaced_book.xml", encoding="utf-8", xml_declaration=True, method='xml', namespaces=namespaces)

上述代码使用了 QName 类来为元素和属性指定命名空间。通过定义命名空间字典 namespaces ，并在 write 方法中传入这个字典，确保了在输出XML文件时正确地包含了命名空间声明。

通过本章节的介绍，我们已经探讨了如何使用Python的ElementTree和Element模块来编写简单和复杂的XML文件。下一章，我们将深入学习如何使用Python读取和解析XML文件，并展示更多实际的应用案例。

5. 如何用Python读取和解析XML文件

5.1 读取XML文件概述

5.1.1 解析XML的基本流程

解析XML文件首先涉及的是了解XML文件结构，这通常包括了解如何读取文件、如何导航和查询文档、以及如何处理解析过程中可能遇到的异常。基本的流程包括以下步骤：

加载XML文档 ：可以将XML文档加载到内存中，或者逐行读取，根据应用场景的不同选择合适的方法。
创建解析器 ：Python中可以使用不同的解析器，如 xml.etree.ElementTree 或 lxml 。
遍历文档结构 ：通过迭代或递归方式遍历XML树，根据需要进行查询或修改。
处理数据 ：对于找到的数据节点，进行必要的处理，如转换数据类型、格式化输出等。
异常处理 ：解析XML时可能会遇到格式错误或数据丢失等问题，需要进行相应的异常处理。

5.1.2 解析XML的常见方法

在Python中，解析XML文件主要有三种方法：DOM、SAX和Pull解析。每种方法适用于不同的场景：

DOM解析 ：将整个XML文档加载到内存中，并构建为一个树形结构，适合于随机访问文档内容。
SAX解析 ：基于事件的解析方式，逐个事件（如标签开始、文本内容等）进行处理，适合于大文件的流式处理。
Pull解析 ：结合了DOM和SAX的优点，允许程序控制解析过程，逐个读取元素，适合于需要迭代处理元素的场景。

5.2 解析XML文件的具体实践

5.2.1 使用ElementTree模块进行解析

使用 xml.etree.ElementTree 模块是Python中解析XML文件最简单的方法之一，适用于大多数基本场景。

import xml.etree.ElementTree as ET

# 加载XML文档
tree = ET.parse('example.xml')
root = tree.getroot()

# 遍历XML文档
for child in root:
    print(child.tag, child.attrib)

这段代码演示了如何加载一个XML文件，获取根节点，并遍历其子节点。 ElementTree 模块提供的API能够让我们以直观的方式处理XML元素。

5.2.2 处理解析结果和异常

在处理XML解析时，不可避免地会遇到错误。以下是如何在使用 ElementTree 解析XML时处理异常的示例：

import xml.etree.ElementTree as ET

try:
    tree = ET.parse('example.xml')
except ET.ParseError as e:
    print(f"解析错误: {e}")
except FileNotFoundError:
    print("文件未找到")
except Exception as e:
    print(f"发生错误: {e}")
else:
    # 无异常时的处理逻辑
    root = tree.getroot()
    # 对root的处理...

在解析XML时，常见的异常包括 ParseError ，如果无法打开文件，则可能是 FileNotFoundError ，还有其他不可预知的异常。良好的异常处理机制可以帮助我们维护程序的健壮性。

6. XML文件的基本结构和组成部分

在本章节中，我们将深入了解XML文件的基本结构及其各个组成部分。这将帮助您理解XML文件是如何构建的，以及在使用Python进行XML文件处理时需要注意的细节。

6.1 XML文件结构解析

XML文件的结构是其灵魂所在，它允许开发者以层次化的方式存储和表示数据。

6.1.1 XML的声明和文档类型定义

XML声明通常出现在文件的最顶部，用于指定XML的版本和编码方式。

<?xml version="1.0" encoding="UTF-8"?>

文档类型定义（DTD）是XML的一个可选部分，用于定义文档的结构和合法元素。

<!DOCTYPE note [
<!ELEMENT note (to,from,heading,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT heading (#PCDATA)>
<!ELEMENT body (#PCDATA)>
]>

6.1.2 元素、属性和文本

元素是XML文档的基础结构单位，由开始标签、内容和结束标签组成。

<note>
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
</note>

属性提供关于元素的额外信息，它们必须出现在开始标签内，并以名称/值对的形式出现。

<note date="2023-04-01">
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
</note>

文本是元素的内容部分，可以包含其他元素或纯文本信息。

6.2 XML组成部分的详细说明

本节将详细介绍XML中的其它重要组成部分，如CDATA区块、注释和处理指令。

6.2.1 CDATA区块

CDATA区块用于包含不应被XML解析器解析为标记的字符数据。在CDATA区块中的文本会被解析器视为纯文本。

<description><![CDATA[This is <b>bold</b> text.]]></description>

6.2.2 注释和处理指令

注释提供了对XML文档的解释说明，但不会出现在最终文档的输出中。

<!-- This is a comment in XML -->

处理指令用于给XML处理器提供指令，通常以 <? 开头，以 ?> 结尾。

<?xml-stylesheet type="text/xsl" href="style.xsl"?>

在了解了XML文件的基本结构和组成部分后，我们已经为解析和操作XML文件打下了坚实的基础。在下一章中，我们将通过具体的实例来展示如何运用Python读写XML文件，从而进一步理解这些概念的实际应用。

本文还有配套的精品资源，点击获取