免费ip代理池创建[通俗易懂]

免费ip代理池创建[通俗易懂]反爬技术越来越成熟,为了爬取目标数据,必须对爬虫的请求进行伪装,骗过目标系统,目标系统通过判断请求的访问频次或请求参数将疑似爬虫的ip进行封禁,要求进行安全验证,通过python的第三方库faker可以随机生成header伪装请求头,并且减缓爬虫的爬取速度,能很好的避过多数目标系统的反扒机制,但对一些安全等级较高的系统,也有极大的可能ip被封禁,当ip被封禁后,通过更换代理ip便可以继续爬取,所以具有一个有效的ip代理池是非常重要的,网上有很多动态ip代理提供商,但如果能有一个自己免费的ip代…

大家好,又见面了,我是你们的朋友全栈君。

       反爬技术越来越成熟,为了爬取目标数据,必须对爬虫的请求进行伪装,骗过目标系统,目标系统通过判断请求的访问频次或请求参数将疑似爬虫的ip进行封禁,要求进行安全验证,通过python的第三方库faker可以随机生成header伪装请求头,并且减缓爬虫的爬取速度,能很好的避过多数目标系统的反扒机制,但对一些安全等级较高的系统,也有极大的可能ip被封禁,当ip被封禁后,通过更换代理ip便可以继续爬取,所以具有一个有效的ip代理池是非常重要的,网上有很多动态ip代理提供商,但如果能有一个自己免费的ip代理池也是不错的选择。关注微信公众号【菜鸟阿都】并回复:ip池,可获得源码。

ip代理池开发思路:

1.通过爬虫技术爬取互联网上免费的ip

2.通过校验,将有效的ip保存

免费ip代理商:

ip提供商 url
快代理 https://www.kuaidaili.com/free/inha
89免费代理 https://www.89ip.cn/index_1.html
高可用全球免费代理ip库 https://ip.jiangxianli.com/
66代理 http://www.66ip.cn/2.html

   封装请求方法,当请求失败后,会停留3秒再次发起请求,总共请求3次,使用faker库,随机生成请求头

# get请求:链接异常后,会多次进行链接尝试
def GetConnect(url):
    i=0
    while i<3:
        try:
            headers= {'User-Agent':str(UserAgent().random)}
            response=requests.get(url,headers=headers,timeout=5)
            if(response.status_code==200):
                return response
        except requests.exceptions.RequestException as e:
            time.sleep(3)
            i+=1

      获取网页提供的ip,总共爬取上述5个提供商提供的免费ip,页面数据为表格,所以通过xpath定位表格爬取数据

def getDate():
    for i in range(0,len(urlNode)):
        for j in range(1,10):n
            url=urlNode[i].replace('@',str(j))
            print(url)
            response=GetConnect(url)
            content=response.text
            html=etree.HTML(content)
            tr=html.xpath('//tr')
            for j in range(1,len(tr)+1):
                ip=html.xpath('//tr['+str(j)+']/td[1]/text()')
                port=html.xpath('//tr['+str(j)+']/td[2]/text()')
                ipType=html.xpath('//tr['+str(j)+']/td[4]/text()')
                # 66ip第一行为表头
                if len(ip)>1:
                    continue
                if len(ipType)==0 or not ipType[0].isalpha():
                    ipType='HTTP'
                else:
                    ipType=ipType[0]
                if len(ip)!=0 and len(port)!=0:
                    checkIp(wash(ip[0])+':'+wash(port[0]),wash(ipType))

     通过ip代理请求,访问icanhazip网址校验ip的有效性

# 校验ip有效性
def checkIp(ip,ipType):
    url='http://icanhazip.com/'
    try:
        headers= {'User-Agent':str(UserAgent().random)}
        proxy = {
          ipType.lower():ipType.lower()+'://'+ip
        }
        response=requests.get(url,headers=headers,proxies=proxy,timeout=5)
        if(response.status_code==200):
            # 有效ip
            write(ip,ipType)
    except Exception as e:
        # 无效
       

      将有效的ip写入文件,以供爬虫使用 

def write(ip,ipType):
    with open("ip池.txt", "a", encoding="utf-8") as f:
        f.write(wash(ip)+' '+wash(ipType)+'\n')

 

 

关注微信公众号【菜鸟阿都】并回复:ip池 ,获得源码.

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136570.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 云计算和虚拟化技术的关系_云计算技术与应用

    云计算和虚拟化技术的关系_云计算技术与应用#写于2021.04.10#本文为学习笔记,用的ppt是陈羽中教授版,侵删#笔记只为交流,入门小白,有错望留言纠正#总结不易望赞鼓励1.大数据和云计算1.1大数据现象是怎么形成的?形成人用的多了产生数据设备多了大数据时代导致数据有以下特点:1.2云计算有哪些特点?超大规模虚拟化高可靠性通用性高可伸缩性按需服务极其廉价1.3云计算你找服务类型可分为哪几类?1.4云计算技术体系结构可分为哪几层?资源池和管理中间件层为云计算技术的

    2025年7月13日
    7
  • mac 安装brew

    mac 安装brew

    2022年2月19日
    59
  • 官方微信开发_第三方微信制作平台

    官方微信开发_第三方微信制作平台升讯威微信营销系统(微信第三方平台)在线体验:http://wxcm.eeipo.cn/开源地址GitHub:https://github.com/iccb1013/Sheng.WeixinCons

    2022年8月6日
    5
  • 系统运维架构师体系[通俗易懂]

    系统运维架构师体系[通俗易懂]一、系统运维架构师体系1.系统运维架构体系排列:2.Linux运维架构的薪资水平:3.Linux运维的技能进化论4.Linux运维大致的知识框架4-1.Linux系统初级体系4-2.Linux系统中高级体系5.Linux运维的具体规划实践5-1.Linux运维基础5-2.Linux运维进阶6.Linux工作的必备要求7.Linux运维学习建议一、系统运维架构师体系1.系统运维架构体系排列:Linux运维工程师应用运维工程师,大数据运维工程师,运维开发工程师,云计算运维工程.

    2022年7月17日
    17
  • 端口 TCP/IP =PORT NUMBERS[通俗易懂]

    端口 TCP/IP =PORT NUMBERS[通俗易懂] http://www.iana.org/assignments/port-numbersPORTNUMBERS(lastupdated2009-10-28)Theportnumbersaredividedintothreeranges:theWellKnownPorts,theRegisteredPorts,andtheDynamic

    2022年9月27日
    2
  • sqlserver 视图创建索引_Oracle创建索引

    sqlserver 视图创建索引_Oracle创建索引一、索引1、添加索引createindex索引对象名on索引对应表名(表内索引对象字段名);例:需创建包含userid属性的userinfo表。createindexuseridonsystem.userinfo(userid);2、删除索引dropindex索引对象名;例:dropindexuserid;二、视图(并不是真实存在的一张表)1、创建视图createview视图名(学号,姓名,科目,成绩)asselect对应在表格中的字段名from涉

    2025年9月27日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号