爬虫python入门_python之路pdf

爬虫python入门_python之路pdfProxyHandler代理器在写爬虫时常常需要做代理IP以反爬虫常用IP有:西刺免费代理:xicidaili.com/nt/快代理:http://kuaidaili.com/代理云:http://dailiyun.com/查看代理的IP:http://www.httpbin.org/ip网站:http://www.httpbin.org/可查看http的一些参数。#检查当前ip…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

ProxyHandler代理器
在写爬虫时常常需要做代理IP以反爬虫
常用IP有:
西刺免费代理:xicidaili.com/nt/
快代理:http://kuaidaili.com/
代理云:http://dailiyun.com/
在这里插入图片描述查看代理的IPhttp://www.httpbin.org/ip
网站http://www.httpbin.org/可查看http的一些参数。

#检查当前ip

from urllib import request,parse
url="http://httpbin.org/ip"
resp=request.urlopen(url)
print(resp.read())

代理的原理:先访问代理服务器,利用代理服务器去访问目标网站,然后再将访问结果返回给自己。
步骤:
1.使用ProxyHandler{“类型”:“ip:端口”}创建一个hander
2.利用创建的handler创建一个opener
3.利用opener发送请求 #其实,urlopen的底层就是一个如此的操作。
代码如下:

handler=request.ProxyHandler({ 
   "http":"112.95.205.49:8888"})
opener=request.build_opener(handler)
resp=opener.open(url)
print(resp.read())

结果:
b’{\n “origin”: “60.222.112.195”\n}\n’ #原IP
b’{\n “origin”: “60.222.112.195, 112.95.204.217”\n}\n’ #代理IP

cookie
在网站中,对服务器的使用往往需要认证,第一次访问服务器后,服务器返回一个cookie,以确保第二次访问无需认证。cookie一般不超过4kb。
代码如下,使用cookie可以实现登录账户。
方法一:在headers加入网页的cookie信息

aji_url="http://www.renren.com/973687886/profile"
headers=({ 
   "User-Agent":" Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36",
"Cookie": "anonymid=k6hu8cnocon7sq; 删除部分代码39c126ca7%7C1581428091545%7C1%7C1581428091771; jebecookies=6f157d36-8a56-4d80-b00e-5b56897c858e|||||; t=af9ce0986e484e427bb7eb4c8e9e3ed56; societyguester=af9ce0986e484e427bb7eb4c8e9e3ed56; xnsid=c90db889; loginfrom=null; wp_fold=0"
})
req=request.Request(url=aji_url,headers=headers)
resp=request.urlopen(req)
print(resp.read().decode("utf-8"))

方法二

from http.cookiejar import CookieJar
headers = ({

“User-Agent”: ” Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36″})
def get_opener():
# 创建一个cookiejar
cookiejar = CookieJar()
# 使用cookiejar创建一个HTTPCookieProcessor对象
handler = request.HTTPCookieProcessor(cookiejar)
# 使用handler创建一个opener
opener = request.build_opener(handler)
return opener
def login_renren(opener):
#登录人人网

data = ({"email": "13537703610",
     "password": "510548134ys"})
login_url = "http://www.renren.com/SysHome.do"
req = request.Request(url=login_url, data=parse.urlencode(data).encode("utf-8"), headers=headers)
opener.open(req)

def visit_renrne(opener):
# 访问个人网页
aji_url = “http://www.renren.com/973687886/profile”
req = request.Request(aji_url, headers=headers) # 使用之前新建的opener,已经有登录信息
resp = opener.open(req)
with open(r”C:\python38\new project\mydi\ren.txt”, “w”, encoding=“utf-8”)as fp:
fp.write(resp.read().decode(“utf-8”))
if name == ‘main’:
opener=get_opener()
login_renren(opener)
visit_renrne(opener)
cookie之保存 cookie保存到本地****可以方便再次查看
from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar(“cookie.txt”)
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)

resp=opener.open(“https://www.baidu.com/”)
cookiejar.save()

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/164738.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 高等数学学习笔记——第十四讲——函数极限的概念(1. 函数在无穷远处极限定义)

    高等数学学习笔记——第十四讲——函数极限的概念(1. 函数在无穷远处极限定义)1.问题引入(函数极限概念产生的背景——十六世纪开始在天体运动、航海、炮弹发射等领域对连续变量的研究需要)2.函数自变量的六种变化过程(趋于无穷或有限量,左趋近或右趋近)以时间为例,理解自变量的不同变化过程3.函数极限示例4.函数极限(关于过程x趋于正无穷)的定义ε可以取任意小的正数5.函数极限证明…

    2022年5月5日
    47
  • Qt图形视图体系结构

    导读:本文主要翻译自QT5.9.3GraphicsView官方文档一、GraphicsView框架简介QT4.2开始引入了Graphics View框架用来取代QT3中的Canvas模

    2021年12月29日
    52
  • 正则表达式Python_python正则表达式匹配字符串

    正则表达式Python_python正则表达式匹配字符串转载:https://www.jianshu.com/p/5295c5988b7f一、正则表达式语法(一)字符与字符类1、特殊字符:\.^$?+*{}[]()|以上特殊字符要想使用字面值,必须使用\进行转义。2、字符类包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个。字符类内可以指定范围,比如[a-zA-Z0-9]表示a到z,A…

    2022年10月3日
    1
  • Netbeans安装教程

    Netbeans安装教程准备工作:电脑安装完JDK能翻墙的浏览器开始:假如没有安装JDK,可以看我写的如何安装JDK1.8.0_101在Oracle官网上下载NetBeans选择相应的版本下载,按照箭头指示方向,即点击AcceotLicenseAgreement然后选择适合自己电脑的版本Windowsx64右面的下载地址建议将安装包放在D盘,新建Netbeans…

    2022年10月22日
    0
  • java异常处理之throw, throws,try和catch[通俗易懂]

    java异常处理之throw, throws,try和catch[通俗易懂]   程序运行过程中可能会出现异常情况,比如被0除、对负数计算平方根等,还有可能会出现致命的错误,比如内存不足,磁盘损坏无法读取文件等,对于异常和错误情况的处理,统称为异常处理。   Java异常处理主要通过5个关键字控制:try、catch、throw、throws和finally。try的意思是试试它所包含的代码段中是否会发生异常;而catch当有异常时抓住它,并进行相应的处理,使程序不受

    2022年5月12日
    33
  • redis 乐观锁_什么时候用乐观锁

    redis 乐观锁_什么时候用乐观锁文章目录GeospatialHyperloglogBitmapsRedis事务悲观锁和乐观锁JedisSpringboot继承RedisGeospatial存储地理位置的数据结构应用场景朋友的定位,附近的人,打车距离计算Geospatial底层使用的是Zset127.0.0.1:6379> geoadd city 116.23 40.22 beijing 添加一个数据127.0.0.1:6379> geoadd city 121.47 31.23 shanghai 118.77

    2022年8月9日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号