urllib.request.urlopen()基本使用

urllib.request.urlopen()基本使用importurllib requesturl https www python org 方式一 response urllib request urlopen url print type response class http client HTTPResponse 方式二 request urllib request Req class http client HTTPResponse

1. urlopen( ) 方法

用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果。返回的结果是一个http响应对象,这个响应对象中记录了本次http访问的响应头和响应体

urllib.request.urlopen 参数介绍
urllib.request.urlopen(  url,   data=None,   [timeout, ]*,  cafile=None, capath=None, cadefault=False, context=None)

import urllib.request url = 'https://www.python.org' # 方式一 response = urllib.request.urlopen(url) print(type(response)) # 
  
    # 方式二 request = urllib.request.Request(url) res = urllib.request.urlopen(url) print(type(res)) # 
   
     print(response.status) # 200 获取响应状态码 print(response.reason) # OK print(response.version) # 11 print(response) # 获取响应,结果为: 
    
      print(response.headers) # 获取响应头 # Server: nginx # Content-Type: text/html; charset=utf-8 # X-Frame-Options: DENY # Via: 1.1 vegur # Via: 1.1 varnish # Content-Length: 48830 # Accept-Ranges: bytes # Date: Thu, 12 Mar 2020 10:34:07 GMT print(response.url) # https://www.python.org 获取响应url print(response.read()) # 获取响应体 二进制字符串 print(response.read().decode("utf-8")) # 对响应体进行解码 # 按行读取 print(response.readline()) # 读取一行 print(response.readline()) # 读取下一行 print(response.readlines()) # 读取多行。得到一个列表 每个元素是一行 
     
    
  

2、添加data参数的时候就是以post请求方式请求,若没有data参数就是get请求方式

from urllib import request, parse # 用parse模块,通过bytes(parse.urlencode())可以将post数据进行转换并放到 # urllib.request.urlopen的data参数中。这样就完成了一次post请求。 data = bytes(parse.urlencode({'word': 'hello'}), encoding='utf8') response = request.urlopen('http://httpbin.org/post', data=data) print(response.read())

3、timeout参数使用

import urllib.request response = urllib.request.urlopen('http://httpbin.org/get', timeout=1) print(response.read()) # 正常结束,控制台显示:socket.time : timed out response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1) print(response.read()) # 超时,控制台显示:urllib.error.URLErrot : 
   
  

4、Request(url=url, data=data, method=’POST’) 方法

web开发中,同一个url往往可以对应若干套不同的数据(或者界面,如手机、电脑),后台可以根据发起请求的前端的用户代理的不同,而决定应该给前端做出什么样的响应,如果检测到没有用户代理可以拒绝访问。

有很多网站为了防止程序爬虫爬网站造成网站瘫痪,会需要携带一些headers头部信息才能访问,最长见的有user-agent参数所以需要伪装请求头,去访问目标站。

urllib.ruquest.Request 参数介绍:

           urllib.ruquest.Request(url=url,headers=headers,data=data,method=’POST’)

 headers 参数使用;给请求添加头部信息,定制自己请求网站时的头部信息,使得请求伪装成浏览器等终端

url = "http://www.baidu.com/" req = request.Request(url=url, headers={'UserAgent':'Mozilla/5.0 (Windows NT 10.0; Win64;x64)AppleWebKit/537.36 (KHTML, likeGecko)Chrome/71.0.3578.80Safari/537.36'}) res = request.urlopen(req) # 用加入了请求头的请求对象发起请求 print(res.status) # 打印状态码

添加请求头的post请求方式

from urllib import request, parse url = 'http://httpbin.org/post' headers = { 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)', 'Host': 'httpbin.org' } dict = {'name': 'taotao'} data = bytes(parse.urlencode(dict), encoding='utf8') req = request.Request(url=url, data=data, headers=headers, method='POST') response = request.urlopen(req) print(response.read().decode('utf-8'))

添加请求头的第二种post方式, 好处是自己可以定义一个请求头字典,然后循环进行添加

from urllib import request, parse url = 'http://httpbin.org/post' dict = {'name': 'Germey'} data = bytes(parse.urlencode(dict), encoding='utf8') req = request.Request(url=url, data=data, method='POST') req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') response = request.urlopen(req) print(response.read().decode('utf-8'))

5、urllib.parse模块 方法

url解析模块

1. urlparse( ) 方法 拆分url

URL解析函数侧重于将URL字符串拆分为其组件,或者将URL组件组合为URL字符串

拆分的时候协议类型部分就会是scheme=“ ”指定的部分。如果url里面已经带了协议,scheme指定的协议不会生效

urllib.parse.urlparse(urlstring, scheme=” “, allow_fragments=True)

urlparse(“www.baidu.com/index.html;user?id=5#comment”,scheme=”https”)

from urllib.parse import urlparse, urlunparse

# 对传入的url地址进行拆分; 可以用 scheme=“ ” 指定协议类型:
result = urlparse("http://www.baidu.com/index.html;user?id=5#comment")
print(result)
# ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html',
# params='user', query='id=5', fragment='comment')

2. urlunparse( ) 方法  拼接url

功能和urlparse的功能相反,它是用于拼接 

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=123', 'commit']
print(urlunparse(data))  # http://www.baidu.com/index.html;user?a=123#commit

6. urlencode( ) 方法 

这个方法可以将字典转换为url参数

对url进行编码,因为urllib这个框架中的url中不能出现汉字,只能出现ascii码字符

from urllib import parse url = "https://www.baidu.com/s?" # 把参数写成字典的形式 dic = {"ie": "utf-8", "wd": "奔驰"} # 用parse的urlencode方法编码 parames = parse.urlencode(dic) # 将编码以后的参数拼接到url中 url += parames print(request.urlopen(url=url)) 

参考:https://www.lagou.com/lgeduarticle/34376.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/215749.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午1:31
下一篇 2026年3月18日 下午1:32


相关推荐

  • 设计模式总结

    设计模式总结

    2021年12月9日
    52
  • 最优化——单纯形法,单纯形表的求取

    最优化——单纯形法,单纯形表的求取最优化 单纯形法一般性线性规划标准型为对象总结其基本步骤 max z nbsp s t nbsp P1x1 P2x2 Pnxn b 1 c1x1 c2x2 cnxn z 2 xj 0 1 j n begin array ll max amp z text s t amp P 1 x 1 P 2 x 2 cdots P n x n vec b 1 amp c 1 x 1 c 2 x 2

    2025年10月11日
    4
  • L3-023 计算图(链式求导+bfs拓扑|dfs)「建议收藏」

    L3-023 计算图(链式求导+bfs拓扑|dfs)「建议收藏」原题链接“计算图”(computational graph)是现代深度学习系统的基础执行引擎,提供了一种表示任意数学表达式的方法,例如用有向无环图表示的神经网络。 图中的节点表示基本操作或输入变量,边表示节点之间的中间值的依赖性。 例如,下图就是一个函数 ( 的计算图。现在给定一个计算图,请你根据所有输入变量计算函数值及其偏导数(即梯度)。 例如,给定输入,,上述计算图获得函数值 (;并且根据微分链式法则,上图得到的梯度 ∇。知道你已经把微积分忘了,所以这里只要求你处理几个简单的算子:加法、减法、乘

    2022年8月8日
    13
  • 常见的目标检测算法介绍[通俗易懂]

    常见的目标检测算法介绍[通俗易懂]2018-12-0521:12:15一、滑动窗口目标检测首先通过卷积神经网络训练一个分类器,然后使用不同尺度的窗口去裁剪输入图片进行分类。我们期望的结果是通过不同的窗口可以将需要检测的物体完全覆

    2022年8月6日
    7
  • matlab中fmincon函数求最大值,matlab fmincon函数用法

    matlab中fmincon函数求最大值,matlab fmincon函数用法满意答案ufm427242013.09.07采纳率:55%等级:12已帮助:8663人你的代码中调用fmincon函数中@total1不应该是@myfun目标函数吗,后面的那个@total1应该是@mycon为非线性约束functionf=myfun(x)f=0.192457*1e-4*(x(2)+2)*x(1)^2*x(3);function[c,ceq]=mycon(x…

    2022年6月16日
    32
  • CURL 命令简介

    CURL 命令简介0概述curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中,并且有DOS和Win32、Win64下的移植版本。curl就是使用命令的方式来执行http协议的请求的工具。可以通过curl操作HTTP的GET/POST/PUT/DELETE方法。1常用方式访问一个网页curlwww.baidu.com显示htt

    2022年7月15日
    18

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号