scrapy爬虫,爬取图片

scrapy爬虫,爬取图片

一、scrapy的安装:

本文基于Anacoda3,

Anacoda2和3如何同时安装?

将Anacoda3安装在C:\ProgramData\Anaconda2\envs文件夹中即可。

如何用conda安装scrapy?

安装了Anaconda2和3后,

 <span>scrapy爬虫,爬取图片</span>

 

如图,只有一个命令框,可以看到打开的时候:

 <span>scrapy爬虫,爬取图片</span>

 

可以切到Anaconda3对应的路径下即可。

安装的方法:cmd中:conda install scrapy即可。

当然,可能会出现权限的问题,那是因为安装的文件夹禁止了读写。可以如图:

<span>scrapy爬虫,爬取图片</span>

将权限都设为“允许“。

注意:此时虽然scapy安装上了,但是在cmd中输入scapy可能会不认,可以将安装scrapy.exe的路径添加到环境变量中。

 

二、scapy的简单使用

例子:爬取图片

1、 创建scrapy工程

譬如,想要创建工程名:testImage

输入:scrapy startproject testImage

即可创建该工程,按照cmd中提示的依次输入:

cd testImage

scrapy genspider getPhoto www.27270.com/word/dongwushijie/2013/4850.html

其中:在当前项目中创建spider,这仅仅是创建spider的一种快捷方法,该方法可以使用提前定义好的模板来生成spider,后面的网址是一个采集网址的集合,即为允许访问域名的一个判断。注意不要加http/https。

 

至此,可以在testImage\testImage\spiders中找到创建好的爬虫getPhoto.py,可以在此基础上进行修改。

2、创建爬虫

<span>scrapy爬虫,爬取图片</span>

如图,可以在图片的位置右键,检查,查看源码,在图片所在的位置处,将xpath拷贝出来。

此时,可以找出图片的地址:

class GetphotoSpider(scrapy.Spider):
    name = 'getPhoto'
    allowed_domains = ['www.27270.com']
    start_urls = ['http://www.27270.com/word/dongwushijie/2013/4850.html']
    def parse(self, response):
        urlImage = response.xpath('//*[@id="picBody"]/p/a[1]/img/@src').extract()
        print(urlImage)
        pass

  

此时,注意网络路径的正确书写,最后没有/,

http://www.27270.com/word/dongwushijie/2013/4850.html/   

此时将4850.html 当作了目录,会出现404找不到路径的错误!

3、 下载图片

items.py:

class PhotoItem(scrapy.Item):
    name = scrapy.Field()
    imageLink = scrapy.Field()

pipelines.py:

from scrapy.pipelines.images import ImagesPipeline
import scrapy
class ImagePipeline(ImagesPipeline):
    def get_media_requests(self,item,info):
        image_link = item['imageLink']
        yield scrapy.Request(image_link)

  

settings.py:

IMAGES_STORE = r”C:\Users\24630\Desktop\test”

另外,对于上面的网址,还需要ROBOTSTXT_OBEY = False

并且,访问该网址会出现302错误,这是一个重定向的问题,

MEDIA_ALLOW_REDIRECTS =True

设置该选项,就可以正确下载,但是下载的还是不对,问题不好解决。

当然在爬虫中,还要对items赋值:

from testImage import items
。。。

for urllink in urlImage:
      item = items.PhotoItem()
      item['imageLink'] = urllink

  

三、 进一步爬取(读取下一页)

# -*- coding: utf-8 -*-
import scrapy
from testImage import items
class GetphotoSpider(scrapy.Spider):
    name = 'getPhoto'
    allowed_domains = ['www.wmpic.me']
    start_urls = ['http://www.wmpic.me/93912']
    def parse(self, response):
        #//*[@id="content"]/div[1]/p/a[2]/img
        urlImage = response.xpath('//*[@id="content"]/div[1]/p/a/img/@src').extract()
        print(urlImage)
        for urllink in urlImage:
            item = items.PhotoItem()
            item['imageLink'] = urllink            
            yield item
            
            
        ifnext  = response.xpath('//*[@id="content"]/div[2]/text()').extract()[0] 
        # 当没有下一篇,即最后一页停止爬取
        if("下一篇" in ifnext):
            nextUrl = response.xpath('//*[@id="content"]/div[2]/a/@href').extract()[0]
            url=response.urljoin(nextUrl)
            yield scrapy.Request(url=url)

  此时,便可以看到路径下的下载后的文件了。(由于该网址每页的图片所在的xpath都不一样,故下载的图片不全)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119474.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • C语言贪吃蛇代码_c语言贪吃蛇游戏

    C语言贪吃蛇代码_c语言贪吃蛇游戏一、C语言贪吃蛇代码实现前言设计贪吃蛇游戏的主要目的是让大家夯实C语言基础,训练编程思维,培养解决问题的思路,领略多姿多彩的C语言。贪吃蛇是非常经典的一款游戏,本次我们模拟在控制台实现贪吃蛇游戏,也就是实现贪吃蛇的基本功能,比如在地图中,用“↑↓←→”控制移动蛇的方向,吃掉食物之后,蛇身体会变长等等。。。。首先我们得分析,游戏中我们会碰见的一些情况。①蛇的部分,蛇的身子是一节一节的,此时最容易联想到的数据结构就是顺序表,链表,如果把蛇比做顺序表或者链表,在之后吃到食物的时候,身子肯定会变长,

    2025年9月6日
    5
  • CocoStudio 创建简单UI资源并加入�到project

    CocoStudio 创建简单UI资源并加入�到project

    2021年11月23日
    45
  • SpringBoot 源码编译「建议收藏」

    SpringBoot 源码编译「建议收藏」SpringBoot源码编译1、从GitHub上下载源码https://github.com/spring-projects/spring-boot/tree/2.1.x下载源码的下面有关于编译源码的介绍:SpringBoot官方建议使用./mvnwcleaninstall或者标准的mvncleaninstall命令来编译源代码,如果要使用标准的mvn命令的话…

    2022年6月11日
    25
  • 基于Python的情感分析案例——知网情感词典

    基于Python的情感分析案例——知网情感词典近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析。于是在网上狂找资料,看相关书籍,终于搞出了这个任务。现在做做笔记,总结一下本次的任务,同时也给遇到有同样需求的人,提供一点帮助。1、情感分析含义情感分析指的是对新闻报道、商品评论、电影影评等文本信息进行观点提取、主题分析、情感挖掘。情感分析常用于对某一篇新闻报道积极消极分析、淘宝商品评论情感打分、股评情感分析、电影评论情感挖掘。情感分析的内容包括:情感的持有者分析、态度持有者分析、态度类型分析(一系列类型如喜欢(like),讨厌

    2022年8月23日
    7
  • 创建UFT对象

    创建UFT对象小船UFT总结:VBS创建UFT对象: SetqtApp=CreateObject(“QuickTest.Application”)    ‘创建COM对象qtApp.Launch                                                                     ‘启动UFTqtApp.New

    2022年5月28日
    34
  • docker flask_sqlallochandle on sql_handle

    docker flask_sqlallochandle on sql_handleFlask-SQLAlchemy-config一、配置键SQLALCHEMY_DATABASE_URI#连接数据的数据库SQLALCHEMY_DATABASE_URI=’sqlite:////tmp/test.db’SQLALCHEMY_DATABASE_URI=’mysql://username:password@server/db’#SQLAlchemy把一个引擎的源表示为一个连同设定引擎选项的可选字符串参数的URI。URI的形式是:dialect+driver://userna

    2025年6月2日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号