Scrapy 升级前面python抓取全部图集谷女孩图片,这次抓取某女孩全部写真集,有能力自己改写抓取全部,要替换自己喜欢女孩地址

Scrapy 升级前面python抓取全部图集谷女孩图片,这次抓取某女孩全部写真集,有能力自己改写抓取全部,要替换自己喜欢女孩地址首先创建ImagesRename在spiders里面创建ImgRename.py输入代码importscrapyfromImagesRename.itemsimportImage

大家好,又见面了,我是你们的朋友全栈君。

<span role="heading" aria-level="2">Scrapy 升级前面python抓取全部图集谷女孩图片,这次抓取某女孩全部写真集,有能力自己改写抓取全部,要替换自己喜欢女孩地址

 

 首先创建 ImagesRename  

在spiders 里面创建 ImgRename.py 输入代码

import scrapy
from ImagesRename.items import ImagesrenameItem

class ImgsrenameSpider(scrapy.Spider):
    name = 'tujigu'

    start_urls = ['https://www.tujigu.com/a/28177/'] #替换自己喜欢女孩地址


    def parse(self, response):
        # 实例化item
        item = ImagesrenameItem()
        # 注意imgurls是一个集合也就是多张图片
        item['imgurl'] = response.xpath("//div[@class='content']//@src").extract()
        # 抓取文章标题作为图集名称
        item['imgname'] = response.xpath("//div[@class='weizhi']//h1").extract_first()

        yield item
        # 提取图片,存入文件夹
        # print(item['ImgUrl'])
        next_page = response.xpath('//*[@id="pages"]//a[11]//@href').extract_first()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

在items里面替换

import scrapy


class ImagesrenameItem(scrapy.Item):
    # define the fields for your item here like:
    imgurl = scrapy.Field()
    imgname = scrapy.Field()
    pass

在middlewares 里面添加 

class NovelUserAgentMiddleWare(object): #随即user_AGENT
    def __init__(self):
        self.user_agent_list = [
           "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
             "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
             "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
       ]

    def process_request(self, request, spider):
        import random
        ua = random.choice(self.user_agent_list)
        print('User-Agent:' + ua)
        request.headers.setdefault('User-Agent', ua)
class NovelProxyMiddleWare(object): #随即IP

    def process_request(self, request, spider):
        proxy = self.get_random_proxy()
        print("Request proxy is {}".format(proxy))
        request.meta["proxy"] = "http://" + proxy

    def get_random_proxy(self):

        import random
        with open('a.txt', 'r', encoding="utf-8") as f:#打开IP的地址
            txt = f.read()
            return random.choice(txt.split('\n'))

在pipelines里面替换

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class ImagesrenamePipeline:
    def process_item(self, item, spider):
        return item
import re
from scrapy.pipelines.images import ImagesPipeline
from scrapy import Request

class ImagesrenamePipeline(ImagesPipeline):

    def get_media_requests(self, item, info):
        # 循环每一张图片地址下载,若传过来的不是集合则无需循环直接yield
        for image_url in item['imgurl']:
            # meta里面的数据是从spider获取,然后通过meta传递给下面方法:file_path
            yield Request(image_url,meta={'name':item['imgname']})

    # 重命名,若不重写这函数,图片名为哈希,就是一串乱七八糟的名字
    def file_path(self, request, response=None, info=None):

        # 提取url前面名称作为图片名。
        image_guid = request.url.split('/')[-1]
        # 接收上面meta传递过来的图片名称
        name = request.meta['name']
        # 过滤windows字符串,不经过这么一个步骤,你会发现有乱码或无法下载
        #name = re.sub(u"([^\u4e00-\u9fa5])", "", name)
        name = re.findall(r'[^<>/h1第0-9页NO. ]', name)
        name= ''.join(name)
        # 分文件夹存储的关键:{0}对应着name;{1}对应着image_guid
        filename = u'{0}/{1}'.format(name, image_guid)
        return filename

最后settings里添加

BOT_NAME = 'ImagesRename'

SPIDER_MODULES = ['ImagesRename.spiders']
NEWSPIDER_MODULE = 'ImagesRename.spiders'
RETRY_ENABLED = True  #打开重试开关
RETRY_TIMES = 20  #重试次数
DOWNLOAD_TIMEOUT = 3  #超时
RETRY_HTTP_CODES = [429,404,403]  #重试
ITEM_PIPELINES = {

   'ImagesRename.pipelines.ImagesrenamePipeline': 300,
}
DOWNLOADER_MIDDLEWARES = {

   'ImagesRename.middlewares.NovelUserAgentMiddleWare': 544, #随即user
   'ImagesRename.middlewares.NovelProxyMiddleWare': 543,#随即IP
}
#没有在middlewares添加随即,就不用添加
# 设置图片存储目录
IMAGES_STORE = 'D:\学习\pythonProject\scrapy\ImagesRename'
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'ImagesRename (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/154228.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 深入理解linux下write()和read()函数

    深入理解linux下write()和read()函数1、write()函数定义:ssize_twrite(intfd,constvoid*buf,size_tcount);函数说明:write()会把参数buf所指的内存写入count个字节到参数fd所指的文件内。返回值:如果顺利write()会返回实际写入的字节数(len)。当有错误发生时则返回-1,错误代码存入errno中。附加说明:(1)write…

    2022年5月26日
    35
  • idea springboot启动报SLF4J:Failed to load class “org.slf4j.impl.StaticLoggerBinder”「建议收藏」

    idea springboot启动报SLF4J:Failed to load class “org.slf4j.impl.StaticLoggerBinder”「建议收藏」首先声明一下,我用的IntellijIDEA2018.3版本的,springboot的版本是2.0.5.RELEASE版本。当我喜滋滋的编写完测试代码,点击Debug的时候,睁大眼睛看控制台简直是看得一脸懵逼,控制台显示如下:SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J:D…

    2022年10月3日
    0
  • Python爬虫实战——搭建自己的IP代理池[通俗易懂]

    Python爬虫实战——搭建自己的IP代理池[通俗易懂]如今爬虫越来越多,一些网站网站加强反爬措施,其中最为常见的就是限制IP,对于爬虫爱好者来说,能有一个属于自己的IP代理池,在爬虫的道路上会减少很多麻烦环境参数工具详情服务器Ubuntu编辑器Pycharm第三方库requests、bs4、redis搭建背景之前用Scrapy写了个抓取新闻网站的项目,今天突然发现有一个网站的内容爬不下来…

    2022年5月11日
    52
  • 利用Pycharm连接服务器[通俗易懂]

    利用Pycharm连接服务器[通俗易懂]利用Pycharm连接服务器前言当下,很多深度学习的模型需要高配置的设备来跑,本地的pc可能无法满足要求。所以就需要利用服务器来训练,但是在服务器上操作代码不是很方便。利用Pycharm可以在本地编写/修改代码,能够同步到服务器上,并且能直接在本地利用pycharm运行同步到服务器上的代码。非常的方便。-前提一台装有anaconda的服务器,本地装了专业版的pycharm。操作步骤步骤一:在pycharm上使用服务器的python环境用pycharm任意打开一个项目,从工具栏中选择Fil

    2022年8月29日
    0
  • Repository XXX does not have a Realease file「建议收藏」

    问题描述:E:Therepository‘http://ppa.launchpad.net/noobslab/deepin-sc/ubuntubionicRelease’doesnothaveaReleasefile.解决方案:cd/etc/apt/sources.list.dlssudormnoobslab-ubuntu-deepi…

    2022年4月7日
    43
  • 页面左侧二级菜单20种案例「建议收藏」

    页面左侧二级菜单20种案例「建议收藏」 本文由码农网&amp;nbsp;–小峰原创,转载请看清文末的转载要求,欢迎参与我们的付费投稿计划!jQuery作为一款主流的JavaScript前端开发框架,深受广告开发者的亲睐,同时jQuery有着不计其数的插件,特别是菜单插件更为丰富,本文将要为大家介绍20个绚丽而实用的jQuery侧边栏菜单,这些侧边栏菜单可以用在不同风格的网页上,如…

    2022年5月4日
    67

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号