python爬虫—–Python访问http的几种方式「建议收藏」

python爬虫—–Python访问http的几种方式「建议收藏」爬取页面数据,我们需要访问页面,发送http请求,以下内容就是Python发送请求的几种简单方式:会使用到的库urllibrequests1.urlopen2.requests用到requ

大家好,又见面了,我是你们的朋友全栈君。

爬取页面数据,我们需要访问页面,发送http请求,以下内容就是Python发送请求的几种简单方式:

会使用到的库  urllib   requests

1.urlopen

import urllib.request
import urllib.parse
import urllib.error
import socket
data = bytes(urllib.parse.urlencode({"hello": "world"}),encoding='utf8')
try:
response = urllib.request.urlopen('http://httpbin.org/post',data=data,timeout=10)
print(response.status)
print(response.read().decode('utf-8'))
except urllib.error.URLError as e:
if isinstance(e.reason, socket.timeout):
print("TIMEOUT")

2.requests

用到requests中的get  post  delete  put 方法访问请求  这种比一简单一些

每个方法有相应的参数列表,比如 get  params参数   proxies:设置代理  auth: 认证  timeout :超时时间 等 

import requests
ico = requests.get("https://github.com/favicon.ico")
with open("favicon.ico", "wb") as file:
file.write(ico.content)

3.Request Session

from requests import Session, Request
url = "https://home.cnblogs.com/u/qiutian-guniang/"
s = Session()
req = Request('GET', url=url, headers=header)
pred = s.prepare_request(req)
r = s.send(pred)
print(r.text)
某些网页会禁止抓取数据 我们可以 通过设置User-Agent来设置 使用cookies来保持登录的访问状态例如:以下的cookie内容可以通过在F12控制台获取 复制粘贴 放入headers中

python爬虫-----Python访问http的几种方式「建议收藏」

cookies = "_gat=1"

headers = {
"Cookie": cookies,
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; '
'x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/68.0.3440.106 Safari/537.36'
}

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155864.html原文链接:https://javaforall.net

(0)
上一篇 2022年7月3日 上午6:46
下一篇 2022年7月3日 上午7:00


相关推荐

  • LeetCode219:Contains Duplicate II

    LeetCode219:Contains Duplicate II

    2022年1月12日
    39
  • 电信光猫改桥接还在苦苦激活成功教程超级密码吗?

    电信光猫改桥接还在苦苦激活成功教程超级密码吗?电信光猫路由改桥接,不同的地区有不通的方法。比较幸运的地区和终端,有通用的超级密码。但是不幸的地区,就需要通过激活成功教程这个超级密码。我就属于比较不幸的地区,遇到不幸的终端:天翼网关TEWA-708G。然后按照网上大神的激活成功教程方法:先是普通用户登录,然后通过备份的方式,将备份文件考出,再通过电脑上的网页源码查看软件找到超级用户的密码。里面当然也有宽带的用户名和密码。通过多方努力,我成功了。然后开心的准备给家里买个新的路由器,准备换上。这中间大概隔了一两周的时间。悲剧发生了。。。。。。光猫的版本升级了,这个漏洞被电信

    2022年10月8日
    4
  • 探索Java的日志世界

    探索Java的日志世界本文的思维导图一、主题打开日志的大门,探索的Java日志世界二、目标了解常用的日志框架掌握日志框架的选择和使用以及开发规范了解日志框架中的一些设计思想三、内容1、日志及日志框架简介1.1 、日志简介1.1.1 、 什么是日志?1)基本字义是指工作日志 ,详细介绍一个过程和经历的记录。 日志(汉语词汇)…

    2022年2月27日
    38
  • PyCharm激活码永久有效PyCharm2017.3.5激活码教程-持续更新,一步到位「建议收藏」

    PyCharm激活码永久有效PyCharm2017.3.5激活码教程-持续更新,一步到位「建议收藏」PyCharm激活码永久有效2017.3.5激活码教程-Windows版永久激活-持续更新,Idea激活码2017.3.5成功激活

    2022年6月19日
    28
  • SpringCloud中Zuul网关原理及其配置,看它就够了!

    点击上方“全栈程序员社区”,星标公众号 重磅干货,第一时间送达 作者:kosamino cnblogs.com/jing99/p/11696192.html  &nbsp…

    2021年6月27日
    100
  • Windows下如何打开CSV文件

    Windows下如何打开CSV文件Windows下如何打开CSV文件CSV文件,即逗号分隔符文件,是一种存储文本数据的常用文件形式。使用MicrosoftExcel打开微软的Excel是我们常用的办公软件之一,它可以用来打开CSV文件。如下图所示:可以看到,用Excel打开的CSV文件,有较好的视觉体验,内容分明,但其隐藏了文本中的逗号。使用Notepad++打开Notepad++是一种非常好用的文本编辑器,它也可以…

    2022年7月21日
    12

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号