1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
| from lxml import etree
web_data="xxxx<div>xxx</div>" html = etree.HTML(web_data)
result = etree.tostring(html, pretty_print=True).deocde('utf-8')
路径表达式说明 - nodename 选取此节点的所有子节点。 - / 绝对路径 从根节点选取。 - // 相对路径 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 - . 选取当前节点。 - .. 选取当前节点的父节点。 - @ 选取属性。
/html/body/div/ul/li/a/text()
//ul/li/a/@href
//ul/li/a[@href="xxx.html"/text()]
//li[last()-1]/a/text()
|