博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python实现XML文件解析
阅读量:5037 次
发布时间:2019-06-12

本文共 6858 字,大约阅读时间需要 22 分钟。

1. XML简介

  XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。

  test.XML文件 

4
Python
测试
Zope

  XML详细介绍可以参考:

2. XML文件解析

  python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称 ET),它提供了轻量级的Python式的API,相对于DOM来说ET 快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。

2.1 xml.dom.*

  文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。

  a. 获得子标签   

  b. 区分相同标签名的标签

  c. 获取标签属性值

  d. 获取标签对之间的数据

#coding=utf-8#通过minidom解析xml文件import xml.dom.minidom as xmldomimport os''' XML文件读取 
4
dasdas Python
测试
Zope
'''xmlfilepath = os.path.abspath("test.xml")print ("xml文件路径:", xmlfilepath)# 得到文档对象domobj = xmldom.parse(xmlfilepath)print("xmldom.parse:", type(domobj))# 得到元素对象elementobj = domobj.documentElementprint ("domobj.documentElement:", type(elementobj))#获得子标签subElementObj = elementobj.getElementsByTagName("login")print ("getElementsByTagName:", type(subElementObj))print (len(subElementObj))# 获得标签属性值print (subElementObj[0].getAttribute("username"))print (subElementObj[0].getAttribute("passwd"))#区分相同标签名的标签subElementObj1 = elementobj.getElementsByTagName("caption")for i in range(len(subElementObj1)): print ("subElementObj1[i]:", type(subElementObj1[i])) print (subElementObj1[i].firstChild.data) #显示标签对之间的数据

  输出结果:

>>> D:\Pystu>python xml_instance.py>>> xml文件路径: D:\Pystu\test.xml>>> xmldom.parse: 
>>> domobj.documentElement:
>>> getElementsByTagName:
>>> username: pytest>>> passwd: 123456>>> subElementObj1[i]:
>>> Python>>> subElementObj1[i]:
>>> 测试>>> subElementObj1[i]:
>>> Zope

2.2 xml.etree.ElementTree

  ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。

  a. 遍历根节点的下一层   

  b. 下标访问各个标签、属性、文本

  c. 查找root下的指定标签

  d. 遍历XML文件

  e. 修改XML文件

#coding=utf-8#通过解析xml文件'''try:    import xml.etree.CElementTree as ETexcept:    import xml.etree.ElementTree as ET从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度    '''import xml.etree.ElementTree as ETimport osimport sys''' XML文件读取 
4
dasdas Python
测试
Zope
'''#遍历xml文件def traverseXml(element): #print (len(element)) if len(element)>0: for child in element: print (child.tag, "----", child.attrib) traverseXml(child) #else: #print (element.tag, "----", element.attrib) if __name__ == "__main__": xmlFilePath = os.path.abspath("test.xml") print(xmlFilePath) try: tree = ET.parse(xmlFilePath) print ("tree type:", type(tree)) # 获得根节点 root = tree.getroot() except Exception as e: #捕获除与程序退出sys.exit()相关之外的所有异常 print ("parse test.xml fail!") sys.exit() print ("root type:", type(root)) print (root.tag, "----", root.attrib) #遍历root的下一层 for child in root: print ("遍历root的下一层", child.tag, "----", child.attrib) #使用下标访问 print (root[0].text) print (root[1][1][0].text) print (20 * "*") #遍历xml文件 traverseXml(root) print (20 * "*") #根据标签名查找root下的所有标签 captionList = root.findall("item") #在当前指定目录下遍历 print (len(captionList)) for caption in captionList: print (caption.tag, "----", caption.attrib, "----", caption.text) #修改xml文件,将passwd修改为999999 login = root.find("login") passwdValue = login.get("passwd") print ("not modify passwd:", passwdValue) login.set("passwd", "999999") #修改,若修改text则表示为login.text print ("modify passwd:", login.get("passwd"))

  输出结果:

>>> D:\Pystu\test.xml>>> tree type: 
>>> root type:
>>> catalog ---- {}>>> 遍历root的下一层 maxid ---- {}>>> 遍历root的下一层 login ---- {
'username': 'pytest', 'passwd': '123456'}>>> 遍历root的下一层 item ---- {
'id': '2'}>>> 4>>> 测试>>> ********************>>> maxid ---- {}>>> login ---- {
'username': 'pytest', 'passwd': '123456'}>>> caption ---- {}>>> item ---- {
'id': '4'}>>> caption ---- {}>>> item ---- {
'id': '2'}>>> caption ---- {}>>> ********************>>> 1>>> item ---- {
'id': '2'} ---->>> not modify passwd: 123456>>> modify passwd: 999999

  附:

#coding=utf-8'''    XML解析类    @功能-结点的增删改查'''import xml.etree.ElementTree as ETimport sysimport os.pathclass XmlParse:    def __init__(self, file_path):        self.tree = None        self.root = None        self.xml_file_path = file_path    def ReadXml(self):        try:            print("xmlfile:", self.xml_file_path)            self.tree = ET.parse(self.xml_file_path)            self.root = self.tree.getroot()        except Exception as e:            print ("parse xml faild!")            sys.exit()        else:            print ("parse xml success!")                    finally:             return self.tree                   def CreateNode(self, tag, attrib, text):        element = ET.Element(tag, attrib)        element.text = text        print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text))        return element                  def AddNode(self, Parent, tag, attrib, text):        element = self.CreateNode(tag, attrib, text)        if Parent:            Parent.append(element)            el = self.root.find("lizhi")            print (el.tag, "----", el.attrib, "----", el.text)        else:            print ("parent is none")    def WriteXml(self, destfile):        dest_xml_file = os.path.abspath(destfile)        self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True)        if __name__ == "__main__":    xml_file = os.path.abspath("test.xml")    parse = XmlParse(xml_file)    tree = parse.ReadXml()    root = tree.getroot()    print (root)    parse.AddNode(root, "Python", {
"age":"22", "hello":"world"}, "YES") parse.WriteXml("testtest.xml")
View Code

2.3 xml.sax.*

  SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。

  解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件

  事件处理器则负责对事件作出相应,对传递的XML数据进行处理

  常用场景:

    (1)对大型文件进行处理

    (2)只需文件的部分内容,或只需从文件中得到特定信息

    (3)想建立自己的对象模型

  基于事件驱动的SAX解析XML内容的知识后续补充!

转载于:https://www.cnblogs.com/xiaobingqianrui/p/8405813.html

你可能感兴趣的文章
关于React中props与state的一知半解
查看>>
java中Hashtable和HashMap的区别(转)
查看>>
关闭数据库
查看>>
webStrom智能提示忽略首字母大小写问题
查看>>
层叠加的五条叠加法则(一)
查看>>
设计模式六大原则(5):迪米特法则
查看>>
对Feature的操作插入添加删除
查看>>
javascript String
查看>>
ecshop 系统信息在哪个页面
查看>>
【转】码云source tree 提交超过100m 为什么大文件推不上去
查看>>
Oracle数据库的增、删、改、查
查看>>
阿里市值超越亚马逊 马云开启下半场技术理想
查看>>
MySql执行分析
查看>>
git使用中的问题
查看>>
yaml文件 .yml
查看>>
linux字符集修改
查看>>
phpcms 添加自定义表单 留言
查看>>
mysql 优化
查看>>
读书笔记 ~ Nmap渗透测试指南
查看>>
WCF 配置文件
查看>>