Python3网络爬虫教程2——urlopen的返回对象

Python3网络爬虫教程2——urlopen的返回对象上接:Python3网络爬虫教程1——初始爬虫(爬虫是干嘛的?)https://blog.csdn.net/u011318077/article/details/865088722.3.urlopen的返回对象rsp=request.urlopen(url)有时候不一定能获得对象,断网了,服务器故障等等geturl:返回请求对象的URLinfo:返回反馈对象的meta信息…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

Python 全栈工程师核心面试 300 问深入解析(2020 版)—-全文预览

Python 全栈工程师核心面试 300 问深入解析(2020 版)—-欢迎订阅

上接:Python3网络爬虫教程1——初始爬虫(爬虫是干嘛的?)
https://blog.csdn.net/u011318077/article/details/86508872

2.3. urlopen的返回对象

  • rsp = request.urlopen(url)
  • 有时候不一定能获得对象,断网了,服务器故障等等
  • geturl: 返回请求对象的URL
  • info: 返回反馈对象的meta信息
  • getcode: 返回的http code(状态码)
  • 看实例43_3
# chardet
# 自动检测URL编码

import chardet
from urllib import request

if __name__ == '__main__':
    url = 'http://china.chinadaily.com.cn/a/201901/15/WS5c3d510fa31010568bdc3902.html'
    # 打开一个URL然后返回页面的内容
    rsp = request.urlopen(url)
    # 把返回的结果读取出来
    print(type(rsp))
    print("URL: {0}".format(rsp.geturl()))
    print("Info: {0}".format(rsp.info()))
    print("Code: {0}".format(rsp.getcode()))

Jetbrains全家桶1年46,售后保障稳定

2.4. request.data

  • 访问网络的两种方法
    • get
      • 利用参数给服务器传递信息
      • 参数为dict,使用parse编码
      • 看实例43_4
from urllib import request, parse

if __name__ == '__main__':

    # 百度搜索请求头信息
    url = 'http://www.baidu.com/s?'
    wd = input('Input your keyword: ')

    # 要想使用data,需使用字典结构
    qs = {'wd': wd}

    # 将输入的字典qs转换为url编码
    # 可以将打印出来的和百度搜索访问结果图片43_4中进行对比,发现url编码是一样的
    qs = parse.urlencode(qs)
    print(qs)

    fullurl = url + qs
    print(fullurl)

    # 访问的网址必须转换为url编码,直接访问会报错
    # fullurl = 'http://www.baidu.com/s?wd=大熊猫'
    rsp = request.urlopen(fullurl)

    html = rsp.read()
    html= html.decode()
    print(html)
- post
    - 一般向服务器传递参数使用
    - post是把信息自动加密处理
    - 我们如果想使用post信息,需要使用data参数
    - 使用post,意味着http请求头可能需要更改:
        - Content-Type: application/x-www.form-urlencode
        - Content-Length: 数据长度
        - 简而言之,一旦更改请求方法,注意其它请求头部信息相适应         
        - 看实例43_5/6
        - 为了更多的设置请求信息,单纯通过urlopen就不太适用了
        - 需要使用request.Request类

43-5

# 本案例用request.urlopen实现
# 更多的设置请求信息需要使用request.Request类,参考43_6

"""
利用parse模块模拟post请求
分析百度词典,参考图片43_5
分析步骤:
1. 打开网页检查(F12),输入单次girl,
2. 一个字母一个字母的输入,每输入一个字母,都会发生一次请求
3. headers采用name排序,会看见有四个sug,发生了四次请求
4. 查看headers里面的FormData的值是kw:girl
5. 检查返回的内容content-type是json格式,需要用到json包
"""
"""
大致流程:
1. 利用data构造内容,然后urlopen打开
2. 返回一个json格式的内容
3. 结果就应该是girl的释义
"""

from urllib import request, parse
import json

baseurl = 'https://fanyi.baidu.com/sug'

# 存储用来模拟formdata的数据一定是字典格式
wd = input('Input your keyword: ')
data = {'kw': wd}

# 需要对data进行编码
data = parse.urlencode(data).encode('utf-8')
print(type(data))
print(data)

# 有了data和url就可以尝试发出请求了,获取网页的内容
rsp = request.urlopen(baseurl, data=data)
json_data = rsp.read().decode('utf-8')
print(type(json_data))
print(json_data)

# 把json的原始字符串数据形式转换成python可编写的字典格式
# 对比上面和下面的打印结果的区别
json_data = json.loads(json_data)
print(type(json_data))
print(json_data)

# 查看结果是一个字典,取出字典中键data对应的值是一个列表,
# 列表中又是有多个字典,每个字典中有两个键值对,将两个值取出,一一对应
for item in json_data['data']:
    # print(item)
    print(item['k'], "-----", item['v'])

43-6

# 本案例用request.Request类实现
# 对比43_5案例

"""
利用parse模块模拟post请求
分析百度词典,参考图片43_5
分析步骤:
1. 打开网页检查(F12),输入单次girl,
2. 一个字母一个字母的输入,每输入一个字母,都会发生一次请求
3. headers采用name排序,会看见有四个sug,发生了四次请求
4. 查看headers里面的FormData的值是kw:girl
5. 检查返回的内容content-type是json格式,需要用到json包
"""
"""
大致流程:
1. 利用Request请求内容(可以进行大量的请求),然后urlopen打开
2. 返回一个json格式的内容
3. 结果就应该是girl的释义
"""

from urllib import request, parse
import json

baseurl = 'https://fanyi.baidu.com/sug'

# 存储用来模拟formdata的数据一定是字典格式
wd = input('Input your keyword: ')
data = {'kw': wd}

# 需要对data进行编码
data = parse.urlencode(data).encode('utf-8')

# 我们需要构造一个请求头,请求头至少包含数据的长度
# request要求传入的请求头是一个dict格式
headers = {'Content-Length': len(data)}

# 构造一个Request类的实例,可以ctrl然后右键查看Request类的源代码
req = request.Request(url=baseurl, data=data, headers=headers)

# 已经构造了一个Request类的实例,然后用urlopen打开
rsp = request.urlopen(req)
json_data = rsp.read().decode('utf-8')

# 把json的原始字符串数据形式转换成python可编写的字典格式
json_data = json.loads(json_data)

# 查看结果是一个字典,取出字典中键data对应的值是一个列表,
# 列表中又是有多个字典,每个字典中有两个键值对,将两个值取出,一一对应
for item in json_data['data']:
    # print(item)
    print(item['k'], "-----", item['v'])

下接:Python3网络爬虫教程3——urllib.error的使用

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/234478.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • GSLB相关概念

    GSLB相关概念域组:当网站使用CDN提供服务并用DNS解析原理构建GSLB时,通常会由权威DNS设置一个CDN对源站提供服务的域名作为源站域名的别名(CNAME).这个别名被称为"域组",GSLB可以将它映射成一个由多个虚拟服务器(VirutalServer)组成的服务池(Pool),这些虚拟服务器就是用户输入网站URL后经负载均衡调度直接提供服务的服务器.GSLB在解析域名的时候会直接返回其中一个虚拟服务器…

    2022年5月27日
    58
  • linux怎样测试tty,ttylinux 设置

    linux怎样测试tty,ttylinux 设置准备工具0.下载ttylinux系统。http://minimalinux.org/ttylinux/downloadX86.html(ttylinux-i686-11.1.iso.gz)(bootcd-i386-5.3.iso.gz)1.下载thttpd。(一)ttylinux安装(ttylinux-i686-11.1.iso)1.将ttylinux-i686-11.1.iso.gz解压t…

    2025年8月21日
    1
  • php扩展模块安装

    php扩展模块安装

    2022年3月8日
    32
  • python merge函数_pandas replace函数

    python merge函数_pandas replace函数在pandas中如果我们想将两个表格按照某一主键合并,我们需要用到merge函数。pd.merge(dataframe_1,dataframe_2,how=”inner”)参数how有四个选项,分别是:inner、outer、left、right。inner是merge函数的默认参数,意思是将dataframe_1和dataframe_2两表中主键一致的行保留下来,然后合并列。outer是相对于inner来说的,outer不会仅仅保留主键一致的行,还会将不一致的部分填充Nan然后保留下来。

    2025年8月8日
    3
  • c语言里怎么设立优先级,细说C语言优先级

    c语言里怎么设立优先级,细说C语言优先级0.为什么要掌握优先级想想这两个问题:a.读别人的代码,遇到优先级问题看不懂,怎么办?b.一堆的括号,美观吗?本想贴一张画来装饰墙壁,却用了一堆纸来固定!有人说代码写多了,自然就会了。这个是很宽泛的说法。看你写的代码的水准,有些东西可能你一直都接触不到,何谈熟练。有些东西一定要梳理,总结。1.优先级1.1优先级图表优先级最高者不是真正意义上的运算符,包括:数组下标,函数调用,结构体成员…

    2022年6月16日
    30
  • 电平转换芯片_电平转换芯片无方向

    电平转换芯片_电平转换芯片无方向电平转换芯片**在混合信号系统中,经常能看到电瓶转换电路,目前市面上应用较多的处理器都是采用3.3V电源供电,但是产品外围器件多数都采用5伏电源供电,这种情况下就必须使用转换电路。目前应用比较多的两类电平转换电路是用MOS管搭建的电平转换电路,和用电平转换芯片实现的电路。为了降低产品的功耗,通常都采用低工作电压值的高速逻辑器件,这也进一步导致了产品内部同时存在多种电压,因此搭建稳定可靠的电平转换电路,尤为重要。如要求低成本,可以用MOSFET管自己搭建一个电平转换电路。用MOSFET管搭建电平转换电

    2022年8月10日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号