Python之xpath

xpath表达式格式xpath通过"路径表达式"来选择节点,在表现形式上与传统的文件系统类似绝对路径(absolutepath)必须用"/"起首,后面紧跟

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

全栈程序员社区此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“全栈程序员社区”或者“www_javaforall_cn”或者微信扫描右侧二维码都可以关注本站微信公众号。

xpath是一种在XML文档中定位元素的语言,常用于xml、html文件解析,比css选择器使用方便

XML文件最小构成单元:

  - element(元素节点)

  - attribute(属性节点)

  - text(文本)

  - namespace(命名空间)

  - processing-instruction(命令处理)

  - comment(注释)

  - root(根节点)

xpath表达式格式

  xpath通过”路径表达式”来选择节点,在表现形式上与传统的文件系统类似

  绝对路径(absolute path)必须用”/”起首,后面紧跟根节点,比如/step/step/…

  相对路径(relative path)则是除了绝对路径以外的其他写法,比如 step/step,也就是不使用”/”起首

  斜杠(/)作为路径内部的分割符

  ”/”:表示选择根节点

  ”//”:表示选择任意位置的某个节点

  ”@”: 表示选择某个属性

  nodename(节点名称):表示选择该节点的所有子节点

xpath功能函数

使用功能函数能够更好的进行模糊搜索

函数 用法 解释
starts-with xpath(‘//div[starts-with(@id,”ma”)]‘) 选取id值以ma开头的div节点
contains xpath(‘//div[contains(@id,”ma”)]‘) 选取id值包含ma的div节点
and xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘) 选取id值包含ma和in的div节点
text() xpath(‘//div[contains(text(),”ma”)]‘) 选取节点文本包含ma的div节点

xpath定位方法

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

  <book>
     <title lang="eng">Harry Potter</title>
     <price>29.99</price>
   </book>

  <book>
     <title lang="eng">Learning XML</title>
     <price>39.95</price>
   </book>

</bookstore>
#bookstore :选取 bookstore 元素的所有子节点。
#/bookstore :选取根节点bookstore,这是绝对路径写法。
#bookstore/book :选取所有属于 bookstore 的子元素的 book元素,这是相对路径写法。
#//book :选择所有 book 子元素,而不管它们在文档中的位置。
#bookstore//book :选择所有属于 bookstore 元素的后代的 book 元素,而不管它们位于 bookstore 之下的什么位置。
#//@lang :选取所有名为 lang 的属性。
#/bookstore/book[1] :表示选择bookstore的第一个book子元素。
#/bookstore/book[last()] :表示选择bookstore的最后一个book子元素。
#/bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。
#/bookstore/book[position()<3] :表示选择bookstore的前两个book子元素。
#//title[@lang] :表示选择所有具有lang属性的title节点。
#//title[@lang='eng'] :表示选择所有lang属性的值等于"eng"的title节点。
#/bookstore/book[price] :表示选择bookstore的book子元素,且被选中的book元素必须带有price子元素。
#/bookstore/book[price>35.00] :表示选择bookstore的book子元素,且被选中的book元素的price子元素值必须大于35。
#/bookstore/book[price>35.00]/title :表示在例14结果集中,选择title子元素。
#/bookstore/book/price[.>35.00] :表示选择值大于35的"/bookstore/book"的price子元素。
#//book/title | //book/price :表示同时选择book元素的title子元素和price子元素。

 例2:

# 我们爬取网页的目的,无非是先定位到DOM树的节点,然后取其文本或属性值

myPage = '''<html>
        <title>TITLE</title>
        <body>
        <h1>我的博客</h1>
        <div>我的文章</div>
        <div id="photos">
         <img src="pic1.jpeg"/><span id="pic1">PIC1 is beautiful!</span>
         <img src="pic2.jpeg"/><span id="pic2">PIC2 is beautiful!</span>
         <p><a href="http://www.example.com/more_pic.html">更多美图</a></p>
         <a href="http://www.baidu.com">去往百度</a>
         <a href="http://www.163.com">去往网易</a>
         <a href="http://www.sohu.com">去往搜狐</a>
        </div>
        <p class="myclassname">Hello,\nworld!<br/>-- by Adam</p>
        <div class="foot">放在尾部的其他一些说明</div>
        </body>
        </html>'''
        
html = etree.fromstring(myPage)

# 一、定位
divs1 = html.xpath('//div')
divs2 = html.xpath('//div[@id]')
divs3 = html.xpath('//div[@class="foot"]')
divs4 = html.xpath('//div[@*]')
divs5 = html.xpath('//div[1]')
divs6 = html.xpath('//div[last()-1]')
divs7 = html.xpath('//div[position()<3]')
divs8 = html.xpath('//div|//h1')
divs9 = html.xpath('//div[not(@*)]')

# 二、取文本 text() 区别 html.xpath('string()')
text1 = html.xpath('//div/text()')
text2 = html.xpath('//div[@id]/text()')
text3 = html.xpath('//div[@class="foot"]/text()')
text4 = html.xpath('//div[@*]/text()')
text5 = html.xpath('//div[1]/text()')
text6 = html.xpath('//div[last()-1]/text()')
text7 = html.xpath('//div[position()<3]/text()')
text8 = html.xpath('//div/text()|//h1/text()')


# 三、取属性 @
value1 = html.xpath('//a/@href')
value2 = html.xpath('//img/@src')
value3 = html.xpath('//div[2]/span/@id')


# 四、定位(进阶)
# 1.文档(DOM)元素(Element)的find,findall方法
divs = html.xpath('//div[position()<3]')
for div in divs:
    ass = div.findall('a')  # 这里只能找到:div->a, 找不到:div->p->a
    for a in ass:
        if a is not None:
            #print(dir(a))
            print(a.text, a.attrib.get('href')) #文档(DOM)元素(Element)的属性:text, attrib

# 2.与1等价
a_href = html.xpath('//div[position()<3]/a/@href')
print(a_href)

# 3.注意与1、2的区别
a_href = html.xpath('//div[position()<3]//a/@href')
print(a_href)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120200.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 文件服务器审计—首选Netwrix文件服务器审计工具

    文件服务器审计—首选Netwrix文件服务器审计工具文件服务器审计—首选Netwrix文件服务器审计工具为了遵守外部法规和确保业务连续性,企业需要审核他们的文件服务器,以确保防止敏感数据泄漏和未经授权的修改。看到论坛很多类似的讨论,而且微软自带的审计策略往往不能满足IT的所有需求。常常通过第三方的软件来实现文件服务器的审计功能。NetwrixWindows文件服务器工具有免费版本的变更通知工具以及收费版本的审计工具。可以自…

    2022年6月4日
    62
  • 启动马达接线实物图_软启动器怎么接线?一张电路图一张实物图供大家参考

    启动马达接线实物图_软启动器怎么接线?一张电路图一张实物图供大家参考朋友们大家好,我是大俵哥,今天我们来聊一下软启动。很多大型动力设备在启动的时候,启动电流都是比较大的,对整个电网有冲击性,所以不能直接启动,具体原因有以下两点。一,有的电机启动电流为额定电流的4--7倍,直接启动会影响同一电网内的其他用电设备。二,直接启动产生较高的峰值转矩,不仅对驱动电机有冲击性,而且易损坏机械装置。软启动相比星三角降压启动、自耦变压器启动等效果要好一些,启动更加平稳,保护也更加…

    2022年6月6日
    295
  • Unix时间戳(Unix timestamp)转换工具 – 站长工具

    Unix时间戳(Unix timestamp)转换工具 – 站长工具站长之家站长论坛站长俱乐部站长问答网站建设资源站长交易赚钱站长工具ALEXA排名查询百度权重查询SEO概况查询友情链接查询GooglePR查询Whois信息查询域名备案查询站长素材字体下载高清壁纸简历模板高清图片矢量素材PPT模板PSD素材源码下载网站排行行业网站排名地区网站排名手机版工具旧版SEO工具包立即登录 注册新帐号海外服务器租用托管-台湾直销SEO快速排名前3、百度好搜搜狗新:外链…

    2022年5月17日
    219
  • H265文件_h265转码工具

    H265文件_h265转码工具一、H264格式RBSP=SODB+RBSPtrailingbitsNALU=NALheader(1byte)+RBSPH.264=StartCodePrefix(3bytes)+NALU+StartCodePrefix(3bytes)+NALU+…H.264从层次来看分为两层:视频编码层(VCL,VideoCo…

    2025年5月31日
    3
  • 深入剖析通信层和RPC调用的异步化(上)

    深入剖析通信层和RPC调用的异步化(上)

    2021年6月19日
    107
  • IP地址分类详解

    IP地址分类详解一、IP地址简介IP,即网际协议(InternetProtocol),或称互联网协议,是用于报文交换网络的一种面向数据的协议。IP是在TCP/IP协议中网络层的主要协议,任务是仅仅根据源主机和目的主机的地址传送数据。为此目的,IP定义了寻址方法和数据报的封装结构,即IP地址。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以

    2022年6月9日
    39

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号