使用Python的lxml模块提取HTML/XML 数据

demo

#更新： 新版本引入etree模块方式

from lxml import html
etree = html.etree
tree = etree.HTML("")

html = '''
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title class="sub_title">Title</title>
</head>
<body>
<div class="none">
<a href ="#">Spaceack's code</a>
</div>
<div class="link">
<a href ="http://spaceack.com">Spaceack's blog</a>
</div>
</body>
</html>
'''
# 老版本引入etree模块方式
from lxml import etree
tree = etree.HTML(html)
# 获取class为link的a标签的元素内容
a_content = tree.xpath('.//div[@class="link"]/a/text()')
print(a_content)
# ["Spaceack's blog"]

# 使用attrib获取标签的属性值
href_element = tree.xpath('.//div[@class="link"]/a')
print(href_element)
# [<Element a at 0x7ff3571a4d80>]
href = href_element[0].attrib.get('href')
print(href)
# http://spaceack.com

获取标签元素内容为空的两种不同效果:

demo

from lxml import etree
# 可见第二个标签 td 元素内容为空
tree = etree.HTML("<th>水果</th><td>苹果</td><th>价格</th><td></td>")
key = tree.xpath("//th/text()")
value = tree.xpath("//td/text()")
print(key, value)
'''
['水果', '价格'] ['苹果']
'''

如果想让价格使用None或空字符串''来占位，可以这样做:

key = tree.xpath("//th")
value = tree.xpath("//td")

key = [item.text for item in key] 
value = [item.text for item in value]
print(key, value)
'''
['水果', '价格'] ['苹果', None]
'''
key = [""  if   item.text==None else item.text for item in key]
value = [""  if  item.text==None else item.text for item in value]
print(key, value)
'''
key ['水果'， '价格']
['水果', '价格'] ['苹果', '']
'''

本文地址：https://blog.csdn.net/a541972321/article/details/110249717

《使用Python的lxml模块提取HTML/XML 数据.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

python闭包函数的应用场景有哪些

记忆化函数：闭包可以用来实现记忆化函数，即将函数的计算结果缓存起来，避免重复计算，提高程序性能。高阶函数：闭包可以作为高阶函数的返回值，返回一个闭包函数，用于延迟执行或者在特定条件下执行。 ...
2024-04-23编程代码python
python匿名函数的作用是什么

Python的匿名函数（lambda函数）可以用来在需要函数作为参数的地方来创建一个简短的、一次性的函数。通常用于简单的操作或者简化代码的写法。匿名函数的语法较简洁，可以在一行代码内完成函数的定义和调用，提高...
2024-04-23编程代码python
怎么用python编写斐波那契数列

可以使用递归或循环的方式来编写斐波那契数列的程序，以下是两种方式的示例代码：使用递归方式： def fibonacci(n): if n <= 1: return n else: return fibonacci(n-1) + fibonacc...
2024-04-23编程代码python
python读取csv文件编码出错怎么解决

如果python读取csv文件出现编码错误，可以尝试以下方法解决：指定编码格式：在读取csv文件时，可以指定编码格式，如utf-8或gbk等。例如，使用pd.read_csv('file.csv', encoding='utf-8')来指定utf-8编码格式。...
2024-04-23编程代码python
怎么用python读取csv文件

要使用Python读取CSV文件，可以使用Python的内置CSV模块。下面是一个简单的示例代码： import csv # 打开CSV文件 with open('file.csv', 'r') as file: # 创建CSV读取器 csv_reader...
2024-04-23编程代码python
python中如何使用matplotlib绘制曲线

要在Python中使用matplotlib绘制曲线，首先需要导入matplotlib库。然后，创建一个新的图形和坐标轴，并使用plot函数来绘制曲线。以下是一个简单的示例代码，演示如何使用matplotlib绘制一条简单的正弦曲线： imp...
2024-04-22编程代码matplotlib,python
python绘图五角星代码怎么写

下面是一个简单的 Python 代码示例，用于绘制五角星： import turtle # 创建画布和画笔 t = turtle.Turtle() # 设置画笔的颜色和线条粗细 t.color("blue") t.pensize(5) # 绘制五角星 for i in rang...
2024-04-22编程代码python
php调用python脚本失败怎么解决

确保python脚本的可执行权限已经设置，可以使用chmod命令设置可执行权限，比如：chmod +x script.py 确保php脚本和python脚本的路径设置正确，可以使用绝对路径来调用python脚本，比如：/usr/bin/python /pat...
2024-04-18编程代码PHP,python