scrapy+xpath爬取不可描述网站[通俗易懂]

scrapy+xpath爬取不可描述网站[通俗易懂]今天来爬一个让人很有动力的网站,网址就不便放上来了,看看有没有有缘人能得知了还是先来items.pyimportscrapyclassAvmooItem(scrapy.Item):#definethefieldsforyouritemherelike:#name=scrapy.Field()name=scrapy.Field()

大家好,又见面了,我是你们的朋友全栈君。

今天来爬一个让人很有动力的网站,网址就不便放上来了,看看有没有有缘人能得知了这里写图片描述
还是先来items.py

import scrapy
 class AvmooItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name=scrapy.Field() birthday=scrapy.Field() age=scrapy.Field() height=scrapy.Field() cup=scrapy.Field() bust=scrapy.Field() waistline=scrapy.Field() hipline=scrapy.Field() birthplace=scrapy.Field() Avatar=scrapy.Field() designations=scrapy.Field() des_imgs=scrapy.Field() des_urls=scrapy.Field()

各位施主从这些字段应该就可以看出来了吧
接下来就是主爬取程序了
spider.py

# -*- coding:utf-8 -*-

import scrapy
from AVMOO.items import AvmooItem
import os
import requests

class AvmooSpider(scrapy.Spider):
    name='AVMOO'
    allowed_domains=['xxx.xx','jp.netcdn.space/digital/video/']#,'xxxx.xx']
    start_urls=['https://xxx.xx/cn/actresses/']
    base_url='https://xxx.xx'
    des_imgs=[]


    def parse(self,response):
        star_urls=response.xpath('//a[@class="avatar-box text-center"]/@href').extract()
        for star_url in star_urls:
            yield scrapy.Request(star_url,callback=self.star_item)
        next_url=self.base_url+response.xpath('//a[@name="nextpage"]/@href').extract()[0]
        if next_url:
            yield scrapy.Request(next_url,callback=self.parse)

    def star_item(self,response):
        item=AvmooItem()
        item['name']=response.xpath('//span[@class="pb-10"]/text()').extract()[0]
        item['age']=response.xpath('//p/text()')[1].extract()
        item['birthday']=response.xpath('//p/text()')[0].extract()
        item['height']=response.xpath('//p/text()')[2].extract()
        item['cup']=response.xpath('//p/text()')[3].extract()
        item['bust']=response.xpath('//p/text()')[4].extract()
        item['waistline']=response.xpath('//p/text()')[5].extract()
        item['hipline']=response.xpath('//p/text()')[6].extract()
        item['birthplace']=response.xpath('//p/text()')[7].extract()
        self.mkdir('/home/shitfly/webspider/AVMOO/avmoo',item['name'])
        f=open(item['name']+'.txt','w+')
        print '写入个人信息'
        self.save_txt(item,f)
        movie_urls=response.xpath('//a[@class="movie-box"]/@href').extract()
        for movie_url in movie_urls:
            yield scrapy.Request(movie_url,meta={
  
  'item1':item},callback=self.movie_item)
        next_url=self.base_url+response.xpath('//a[@name="nextpage"]/@href').extract()[0]
        if next_url:
            yield scrapy.Request(next_url,meta={
  
  'item1':item},callback=self.star_item2)

    def star_item2(self,response):
        item1=response.meta['item1']
        movie_urls=response.xpath('//a[@class="movie-box"]/@href').extract()
        for movie_url in movie_urls:
            yield scrapy.Request(movie_url,meta={
  
  'item1':item1},callback=self.movie_item)
        try:
            next_url=self.base_url+response.xpath('//a[@name="nextpage"]/@href').extract()[0]
        except:
            pass
        if next_url:
            yield scrapy.Request(next_url,meta={
  
  'item1':item1},callback=self.star_item2)

    def movie_item(self,response):
        item=AvmooItem()
        item2=response.meta['item1']
        item['name']=item2['name']
        item['designations']=response.xpath('//span[@style="color:#CC0000;"]/text()').extract()[0]
        base_path='/home/shitfly/webspider/AVMOO/avmoo'+'/'+item['name']
        self.mkdir(base_path,item['designations'])
        cover=response.xpath('//a[@class="bigImage"]/img/@src').extract()[0]
        self.des_imgs=[]
        self.des_imgs.append(cover)
        des_imgs=response.xpath('//a[@class="sample-box"]/div[@class="photo-frame"]/img/@src').extract()
        for des_img in des_imgs:
            s=des_img.split('-')
            s[0]=s[0]+str('jp-')
            des_img=''.join(i for i in s)
            self.des_imgs.append(des_img)
        item['des_imgs']=self.des_imgs
        yield item


    def mkdir(self,base_path,title): #title是文件夹名
        title=title.strip()
        isExists=os.path.exists(os.path.join(base_path,title))
        if not isExists:
            print "新建",title,"文件夹"
            os.makedirs(os.path.join(base_path,title))
            os.chdir(os.path.join(base_path,title))
        else:
            print title,'已存在'
            os.chdir(os.path.join(base_path,title))
        return True

    def save_txt(self,item,f):
        it=[]
        inf=['age','birthday','height','cup','bust','waistline','hipline','birthplace']
        for i in inf:
            it.append(item[i])
        for it_e in it:
            it_e=it_e+'\n'
            f.write(it_e.encode('utf-8'))

网址已被和谐,这里希望图片保存到本地,所以还是在磁盘中建立文本文件和文件夹。想要传递字段的话,使用meta={‘item1’:item},下一个函数接收是item1=response.meta[‘item1’]。

保存图片的话在管道中来进行保存
pipelines.py

import requests

class AvmooPipeline(object):
    def process_item(self, item, spider):
        des_imgs=item['des_imgs']
        path='/home/shitfly/webspider/AVMOO/avmoo'+'/'+item['name']+'/'+item['designations']
        for i in range(len(des_imgs)):
            image=requests.get(des_imgs[i])
            path_i=path+'/'+str(i)+'.jpg'
            f=open(path_i,'wb')
            f.write(image.content)
            f.close()
            print u'正在保存图片:',des_imgs[i]
            print u'图片路径:',path_i
            print u'文件:',path


        return item

需要在settings.py中使用这个管道

ITEM_PIPELINES = {
    'AVMOO.pipelines.AvmooPipeline': 300,
}

来重写一下下载中间件编写您自己的下载器中间件
middlewares.py

import random

class RandomUserAgentMiddleware(object):

    def __init__(self,agents):
        self.agents=agents

    @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler.settings.getlist('USER_AGENTS'))

    @classmethod
    def from_settings(cls, settings):
        return cls(settings.getlist('USER_AGENTS'))

    def process_request(self,request,spider):
        us=random.choice(self.agents)
        print us
        request.headers.setdefault('User-Agent',us)

在settings.py中加入一个USER_AGENTS = […]的列表

DOWNLOADER_MIDDLEWARES = {
'AVMOO.middlewares.RandomUserAgentMiddleware': 543,}

就可以随机使用一个USER_AGENTS了

在settings.py中添加

CONCURRENT_ITEMS=100#默认Item并发数
CONCURRENT_REQUESTS=16#默认Request并发数
CONCURRENT_REQUESTS_PER_DOMAIN = 16#默认每个域名的并发数
CONCURRENT_REQUESTS_PER_IP = 0#每个ip的最大并发数,0表示忽略 

settings

未完待续。。。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130247.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Route add 命令举例「建议收藏」

    Route add 命令举例「建议收藏」例子1:要显示IP路由表的完整内容,执行以下命令:  route print  例子2:要显示IP路由表中以10.开始的路由,执行以下命令:  route print 10.*  例子3:要添加默认网关地址为192.168.12.1的默认路由,执行以下命令:  route add 0.0.0.0 mask 0.0.0.0 192.168.12.1  例子4:要添加目标为10.41.0.

    2022年8月12日
    6
  • 解读滑块验证码(滑动验证码)与图形验证码的破解难度

    解读滑块验证码(滑动验证码)与图形验证码的破解难度

    2021年6月7日
    130
  • 手机看片神器地址_给我一个可以手机看片的

    手机看片神器地址_给我一个可以手机看片的你是不是想找可以免费在线看电影电视剧的网站,但总是找不到可以正常使用的影视网站。其实要想找可以手机免费看片的电影网站,直接找一些优质的导航网站即可,这些导航网站收录了大量的精品影视资源网站。如果你是自己网上查找,会经常搜到一些假的点网站,个别好用的还经常会失效。而导航网站一般都会筛选测试好用的手机在线看片电影网站,并且会不断的更新完善。推荐两个可以免费手机看片神器电影网址导航网站1.办公人导航办公人导航网是一个实用的办公生活导航网站,收录了大量的办公相关的精品站点。在办公人导航网的影视网站栏目,.

    2025年12月4日
    7
  • currentstyle 织梦_dede currentstyle属性完美解决方案

    问题一、dede让channelartlist标签支持currentstyle属性完美解决打开include\taglib\channelartlist.lib.php找到$pv->Fields[‘typeurl’]=GetOneTypeUrlA($typeids[$i]);在此行代码下方增加以下代码:if($typeids[$i][‘id’]==$refObj->TypeL…

    2022年4月18日
    313
  • 爬虫为啥需要大量的ip_简述网络爬虫的工作原理

    爬虫为啥需要大量的ip_简述网络爬虫的工作原理http/https等爬虫代理ip的基本实现原理爬虫工作者在试用爬虫进行数据搜集的过程中经常会遇到这样的情况,刚开始的时候爬虫的运行情况是正常的,数据的抓取状况也在有条不紊的进行着,然而可能你一眼照顾不到就会出现错误,比如403Forbidden,这时候你打开网页的话,网页上面会提示你,“您的IP访问频率太高”这样的字眼。出现这种现象的原因就是被访问网站采取了反爬虫机制,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。那

    2022年10月8日
    3
  • pycharm开启自动补全_python代码补全插件

    pycharm开启自动补全_python代码补全插件在使用python时候我们可能更倾向于能够使用到自动补全代码的功能在一段时间的找寻和使用过程中,发现了几种能补全代码的插件和方法吧pycharm中TabNine插件 这个我感觉还能用吧~啧百度kite官网下载kite插件百度aiXcoder插件下载aiXcoder插件GitHub开源项目1.首先第一个TabNine的插件 亲测了一段时间,感觉很一般 如果想体验一下也不是不行 安装插件过程如下: pycharm编译器->File->Settings

    2022年8月26日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号