<收藏架=“新来者”>
<电影名称=“背后的敌人”>
<类型>战争，惊悚片</类型><格式>DVD</格式>
<
年>2003</年>
<评级>PG</评级>
<星>10</星>
<描述>谈论美日战争</描述>
</电影>
<电影标题=“变形金刚”>
<类型>动漫，科幻小说</类型>
<格式>DVD</格式>
<年>1989</年>
<评分>R</收视率><
星>8</星>
<描述>科学小说</描述>
</电影>
<电影标题=“Trigun”>
<类型>动漫，动作</类型>
<格式>DVD</格式>
<集>4</集>
<评分>PG</评分>
<星级>10</星级>
<描述>瓦什踩踏！</描述>
</电影>
<电影标题=“伊什塔尔”>
<类型>喜剧</类型>
<格式>VHS</格式>
<评分>PG</评分>
<星>2</星>
<描述>可见无聊</描述>
</电影>
</收藏>

Python 使用 SAX 解析 xml

SAX 是一种基于事件驱动的API。

利用 SAX 解析 XML 文档牵涉到两个部分： 解析器和事件处理器。

解析器负责读取 XML 文档，并向事件处理器发送事件，如元素开始跟元素结束事件。

而事件处理器则负责对事件作出响应，对传递的 XML 数据进行处理。

1、对大型文件进行处理；
2、只需要文件的部分内容，或者只需从文件中得到特定信息。
3、想建立自己的对象模型的时候。

在 Python 中使用 sax 方式处理 xml 要先引入 xml.sax 中的 parse 函数，还有 xml.sax.handler 中的 ContentHandler。

ContentHandler 类方法介绍

字符（内容）方法

调用时机：

从行开始，遇到标签之前，存在字符，content 的值为这些字符串。

从一个标签，遇到下一个标签之前，存在字符，content 的值为这些字符串。

从一个标签，遇到行结束符之前，存在字符，内容的值为这些字符串。

标签可以是开始标签，也可以是结束标签。

startDocument（）方法

文档启动的时候调用。

endDocument（）方法

解析器到达文档结尾时调用。

startElement（name， attrs）方法

遇到XML开始标签时调用，name 是标签的名字，attrs 是标签的属性值字典。

endElement（name）方法

遇到XML结束标签时调用。

make_parser 方法

以下方法创建一个新的解析器对象并返回。

xml.sax.make_parser( [parser_list] )

参数说明:

parser_list - 可选参数，解析器列表

解析器方法

以下方法创建一个 SAX 解析器并解析 xml文档：

xml.sax.parse( xmlfile, contenthandler[, errorhandler])

参数说明:

XML文件 - XML文件名
内容处理程序 - 必须是一个 ContentHandler 的对象
错误处理程序 - 如果指定该参数，errorhandler 必须是一个 SAX ErrorHandler 对象

parseString 方法

parseString 方法创建一个 XML 解析器并解析 xml 字符串：

xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

参数说明:

XML字符串 - XML字符串
内容处理程序 - 必须是一个 ContentHandler 的对象
错误处理程序 - 如果指定该参数，errorhandler 必须是一个 SAX ErrorHandler对象

Python 解析 XML实例

#！/usr/bin/python3

import xml.萨克斯

类 MovieHandler（ xml.萨克斯。ContentHandler ）： def __init__（self）：

self.当前数据 = “”
自我。类型 = “”
自我。格式 = “”
自我。年 = “”
自我。评级 = “”
自我。星星=“”
自我。description = “”

# 元素开始调用
def startElement（self， tag， attributes）：
self.当前数据 = 标记，如果标记
== “电影”：
打印 （“*****电影*****”） 标题 = 属性[“标题”]
打印 （“标题：”， 标题）


# 元素结束调用
def endElement（self， tag）：
if self.当前数据 == “类型”：
打印 （“类型：”， self.类型）
埃利夫自我。当前数据 == “格式”：
打印（“格式：”，自我。格式）
埃利夫自我。当前数据 == “年”：
打印 （“年：”， 自我.年）
埃利夫·当前数据 == “评级”：
打印（“评级：”，自我。评级）
埃利夫自我。当前数据 == “星星”：
打印（“星星：”，自我。星星）
伊利夫·当前数据 == “描述”：
打印（“描述：”，自我。描述）
自我。当前数据 = “”

# 读取字符时调用
def 字符（self， content）：
if self.当前数据 == “类型”：
自我。类型 = 内容
ELIF 自我。当前数据 == “格式”：
自我。格式 = 内容
ELIF 自我。当前数据 == “年”：
自我。年份 = 内容
elif 自我。当前数据 == “评级”：
自我。评级 = 内容
Elif 自我。当前数据 == “星星”：
自我。星星=内容
艾利夫自我。当前数据 == “描述”：
自我。描述 = 内容

如果 （ __name__ == “__main__”）：

# 创建一个 XMLReader
解析器 = xml.萨克斯。make_parser（）
# 关闭命名空间
解析器。setFeature（xml.萨克斯。处理程序。feature_namespaces， 0） # 重写 ContextHandler Handler = MovieHandler
（）


解析器。setContentHandler（ Handler ）

parser.parse（“movies.xml”)

以上代码执行结果如下：

*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Year: 2003
Rating: PG
Stars: 10
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Year: 1989
Rating: R
Stars: 8
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Stars: 10
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Stars: 2
Description: Viewable boredom

使用xml.dom解析XML

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。

一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用 DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入 xml文件。

Python 中用 xml.dom.minidom 来解析 xml 文件，实例如下：

#！/usr/bin/python3

来自 XML。多姆。Minidom Import parse
import xml.多姆。minidom

# 使用minidom解析器打开 XML 文档
DOMTree = xml.多姆。迷你。parse（“movies.xml”）
集合 = DOMTree.documentElement
if collection.hasAttribute（“shelf”）： print （“Root element ：
%s” % collection.getAttribute（“shelf”））

# 在集合中获取所有电影
movies = collection.getElementsByTagName（“movie”）

# 打印每部电影的详细信息
for movie in movies：
print （“*****Movie*****”）
if movie.hasAttribute（“title”）： print （“Title：
%s” % movie.getAttribute（“title”））

type = movie。getElementsByTagName（'type'）[0]
print （“Type： %s” % type.子节点[0]。数据）
格式 = 影片。getElementsByTagName（'format'）[0]
print （“Format： %s” % format.子节点[0]。数据）
评级 = 电影。getElementsByTagName（'rating'）[0]
print （“Rating： %s” % rating.子节点[0]。数据）
描述 = 电影。getElementsByTagName（'description'）[0]
print （“Description： %s” % description.子节点[0]。数据)

以上程序执行结果如下：

Root element : New Arrivals
*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Rating: PG
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Rating: R
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Description: Viewable boredom

原文链接：https://blog.csdn.net/weixin_57099902/article/details/129750384

前言

什么是 XML？

Python 对 XML 的解析

1.SAX（用于XML的简单API）

2.DOM（文档对象模型）

Python 使用 SAX 解析 xml

ContentHandler 类方法介绍

make_parser 方法

解析器 方法

parseString 方法

Python 解析 XML实例

使用xml.dom解析XML

解析器方法