Xpath

2021-10-23 Comments

from lxml import etree

web_data="xxxx<div>xxx</div>"
html = etree.HTML(web_data)

# 打印html
result = etree.tostring(html, pretty_print=True).deocde('utf-8')

路径表达式说明
- nodename 选取此节点的所有子节点。
- / 绝对路径 从根节点选取。
- // 相对路径 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
- . 选取当前节点。
- .. 选取当前节点的父节点。
- @ 选取属性。

# 样例
/html/body/div/ul/li/a/text()
# 获取a标签的href属性
//ul/li/a/@href
# 获取a标签属性href=xxx.html的内容
//ul/li/a[@href="xxx.html"/text()]
# 查询倒数第二个li中的内容
//li[last()-1]/a/text()

参考链接:

本文链接： http://fansichao.github.com/blog/Tools/Crawl/crawl-xpath.md/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

fansichaoData Engineer & SSE & CYO

个人简介。