XPath解析中的 ‘Element a at 0x5308a80’是什么

XPath解析中的 ‘Element a at 0x5308a80’是什么话不多说,直接上代码以链家网为例,解析网页打印出来的东西居然不是想象中的html文件,而是“<Elementhtmlat0x52e5c10>”这么个东西。这个东西其实是一个元素,后面会介绍到。现在还是说说怎么把这个东西变成我们能看懂的html内容吧。fromlxmlimportetreeimportrequestsfromlxml.htmlimport…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

话不多说,直接上代码

以链家网为例,解析网页打印出来的东西居然不是想象中的html文件,而是“<Element html at 0x52e5c10>”这么个东西。这个东西其实是一个元素,后面会介绍到。现在还是说说怎么把这个东西变成我们能看懂的html内容吧。

from lxml import etree
import requests
from lxml.html import fromstring, tostring

url = 'http://sh.lianjia.com/ershoufang/pudong'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36'}
res = requests.get(url,headers=headers)
tree = etree.HTML(res.text)

print(tree)

XPath解析中的 'Element a at 0x5308a80'是什么

 要将element转成能看懂的html内容,需要进行先tostring,然后decode编码,代码如下:

from lxml import html
from html.parser import HTMLParser

#转为string
tree1 = html.tostring(tree[0])
#编码'utf-8'
tree2 = HTMLParser().unescape(tree1.decode('utf-8'))
print(tree2)

上面的代码等价于:

tree3 = html.tostring(tree[0],encoding='utf-8').decode('utf-8')
print(tree3)

结果如下图,看起来舒服多了(至少有汉字能看懂了,不至于一脸懵A+) 

XPath解析中的 'Element a at 0x5308a80'是什么

什么是element?

element上面说到,这个东西其实是一个元素,它的类型是’lxml.etree._Element’。

如下面的例子,element的tag值取到的是标签名,attrib获取到的是节点标签的属性,text获取到的是标签文本(例子里的标签文本为空,所以取None)

from lxml import etree
import requests
from lxml.html import fromstring, tostring

url = 'http://sh.lianjia.com/ershoufang/pudong'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36'}
res = requests.get(url,headers=headers)
dom_tree = etree.HTML(res.text)

res = dom_tree.xpath('//li')[5]
res1 = html.tostring(res)
res2 = HTMLParser().unescape(res1.decode('utf-8'))

print(res)
print(res2)
print(res.tag)
print(res.attrib)
print(res.text)

XPath解析中的 'Element a at 0x5308a80'是什么

一个例子

在实际应用中,我们会在xpath后面加上方法取出文本值或者属性值,如下面的例子,加上“/text()”可以取出文本值,加上“/@href’”可以取出href值(节点属性其实还是用@符号就可以获取,在例子中,如果要取“data-housecode=”107101428480″”中的号码,加上“/@data-housecode”即可

from lxml import etree
import requests
from lxml.html import fromstring, tostring

url = 'http://sh.lianjia.com/ershoufang/pudong'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36'}
resl = requests.get(url,headers=headers)
tree = etree.HTML(resl.text)

res = tree.xpath('//ul[@class="sellListContent"]//div[@class="info clear"]//div[@class="title"]//a')[0]
res1 = html.tostring(res)
res2 = HTMLParser().unescape(res1.decode('utf-8'))

#用“/text()”取出文本值
text = tree.xpath('//ul[@class="sellListContent"]//div[@class="info clear"]//div[@class="title"]//a/text()')[0]

#用“/@href'”取出href值
href = tree.xpath('//ul[@class="sellListContent"]//div[@class="info clear"]//div[@class="title"]//a/@href')[0]

print(res)
print('===============================')
print(res2)
print('===============================')
print(text)
print('===============================')
print(href)

XPath解析中的 'Element a at 0x5308a80'是什么

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/196462.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Window安装Redis并设置为开机启动

    Window安装Redis并设置为开机启动

    2021年11月7日
    37
  • 常用hook机制_hook so层

    常用hook机制_hook so层SSDTHook技术详解与应用SSDTHook技术详解与应用一SSDT简介1什么是SSDT2SSDT结构3应用层调用Win32API的完整执行流程二SSDTHook原理1SSDTHook原理简介2进程隐藏与保护3文件隐藏与保护4端口隐藏一、SSDT简介1、什么是SSDT​SSDT的全称是SystemServicesDescriptorTable,系统服

    2022年10月24日
    0
  • 2021 pycharm激活码破解方法[通俗易懂]

    2021 pycharm激活码破解方法,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月15日
    67
  • ES安装教程详解_wampserver安装教程

    ES安装教程详解_wampserver安装教程0.安装前准备 centos7+ java8+ elastic6.2.4+2.在官方网站下载ESwgethttp://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.1.tar.gz3.安装JDK(必须JDK1.8+)rpm-ivhjdk-8u181-linux-x64.rpm /*注意:默认安装位置/usr/java/jdk1.8.0_171-amd64*/4.配置环境变量vi

    2022年4月19日
    109
  • 深度学习CNN算法原理

    深度学习CNN算法原理深度学习CNN算法原理一卷积神经网络卷积神经网络(CNN)是一种前馈神经网络,通常包含数据输入层、卷积计算层、ReLU激活层、池化层、全连接层(INPUT-CONV-RELU-POOL-FC),是由卷积运算来代替传统矩阵乘法运算的神经网络。CNN常用于图像的数据处理,常用的LenNet-5神经网络模型如下图所示:       该模型由2个卷积层、2个抽样层(池化层)、3个全…

    2022年9月8日
    0
  • vdbench 参数详解[通俗易懂]

    vdbench 参数详解[通俗易懂]HD:主机定义如果您希望展示当前主机,则设置hd=localhost。如果希望指定一个远程主机,hd=label。system=IP地址或网络名称。clients=用于模拟服务器的正在运行的客户端数量。SD:存储定义sd=标识存储的名称。host=存储所在的主机的ID。lun=原始磁盘、磁带或文件系统的名称

    2022年5月12日
    446

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号