scrapy安装教程_玻璃幕墙安装介绍

scrapy安装教程_玻璃幕墙安装介绍在写之前我们先来了解一下什么是Scrapy?Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便Scrapy使用了Twisted[‘twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

在写之前我们先来了解一下什么是Scrapy?

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛

框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便

Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求

Python3.6 Scrapy安装

Scrapy框架官方网址:http://doc.scrapy.org/en/latest

第一种方法,windows安装

这种方式需要我们打开终端,步骤是windows+r,输入cmd回车进入终端

有时pip版本过于老旧不能使用,需要升级pip版本,输入pip install --upgrade pip回车,升级成功

安装scrapy命令:pip install Scrapy

直接使用命令安装不成功可以下载whl格式的包安装,安装whl格式包需要安装wheel库

输入:pip install wheel

安装完成后验证是否成功

scrapy安装教程_玻璃幕墙安装介绍

scrapy的whl包地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/  

搜索 scrapy

scrapy安装教程_玻璃幕墙安装介绍

因为scrapy框架基于Twisted,所以先要下载其whl包安装

地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

搜索  twisted     根据自己的版本下载

scrapy安装教程_玻璃幕墙安装介绍

进行安装  xxxxxxxx是包的名字 进入whl包所在的路径,执行下面命令

pip install xxxxxxx.whl

scrapy包使用相同的方式进行安装,进入所在目录,执行

pip install Scrapy‑1.5.1‑py2.py3‑none‑any.whl

第二种方法,利用anaconda安装scrapy框架

使用pip install 来安装scrapy需要安装大量的依赖库,这里我使用了Anaconda来安装scrapy,安装时只需要一条语句:conda install scrapy即可

安装Anaconda,在cmd窗口输入:conda install scrapy  ,输入y回车表示允许安装依赖库

安装完成需要测试是否安装成功,在终端输入scrapy回车,如下图证明安装成功

scrapy安装教程_玻璃幕墙安装介绍

scrapy 基本操作

安装成功后,在自己的pc工程里建一个文件

打开终端,输入cd 把工程里建的文件拖入  回车

提示下面结果  代表成功

scrapy安装教程_玻璃幕墙安装介绍

 

二. Scrapy的基本用法

     首先,在我们进行第一步——Scrapy的安装时,无论通过什么方式安装,都要进行验证,在验证时输入Scrapy命令后,会得到系统给出的类似于文档的提示,其中包括了Scrapy的可执行命令,即Available commands,具体如下图所示:

scrapy安装教程_玻璃幕墙安装介绍

    接下来我们通过建立一个简单的项目应用来了解这些命令的使用:

    ①. 在编译器PyCharm中新建一个文件夹“Scrapy测试”,然后在终端中输入: cd (注意cd后有一个空格),接着讲新建的文件夹拖入命令行,系统会自动补全该文件夹的完整路径,按下回车后就能进入该文件夹。

scrapy安装教程_玻璃幕墙安装介绍

    ②. 在终端输入指令:scrapy startproject wxz 进行项目创建。scrapy startproject是创建项目的命令,后面跟的是项目名称。该指令执行后的结果如下图所示:

scrapy安装教程_玻璃幕墙安装介绍

如图所示:Scrapy测试文件夹中,被创建几个文件夹和py文件,这就表示一个项目初步创建成功。

    ③. 通过cd命令进入wxz文件夹,命令为cd wxz

    ④. 再次输入cd命令,进入外层wxz文件夹中的wxz文件夹,为了快捷和减少出错,可以通过按“↑”键执行命令

    ⑤. 输入cd spiders , 进入spiders文件夹内

    ⑥. 在终端中输入scrapy genspider taobaoSpider baidu.com,这个命令是指定要爬取的网站的域名,命令格式为:scrapy genspider taobaoSpider + 目标网站的域名。执行效果如图所示:

scrapy安装教程_玻璃幕墙安装介绍

至此,一个初步得scrapy项目就已经创建成功,下面我们了解一下这个框架的每个部分的功能:

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

三. 相关配置文件说明

    在第二部分,我们初步创建了一步Scrapy项目,在自动创建的文件夹中,有着如图所示的几个文件:

 

scrapy安装教程_玻璃幕墙安装介绍

它们的作用分别是:

items.py:定义爬虫程序的数据模型

middlewares.py:定义数据模型中的中间件

pipelines.py:管道文件,负责对爬虫返回数据的处理

settings.py:爬虫程序设置,主要是一些优先级设置,优先级越高,值越小

scrapy.cfg:内容为scrapy的基础配置

值得注意的是,在学习阶段,我们要明白几点设置文件setting中的几处配置代码,它们影响着我们的爬虫的效率:

ROBOTSTXT_OBEY = True

这行代码意思是:是否遵守爬虫协议,学习阶段我们要改为False

 
  1. SPIDER_MIDDLEWARES = {

  2. 'wxz.middlewares.WxzSpiderMiddleware': 800,

  3. }

这里的数值越低,速度越快

四. 开始爬虫应用

    在终端中输入:scrapy genspider 文件名  + 目标网站域名,比如本文所用的就是:scrapy genspider taobao_spider taobao.com

scrapy安装教程_玻璃幕墙安装介绍

       创建成功后,使用scrapy crawl taobao_spider命令,即可得到目标网站的源码:

scrapy安装教程_玻璃幕墙安装介绍

以上便是Scrapy的安装和简单配置了,更多学习请关注我的博客更新。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/192114.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • UFT12的破解方法和UFT11.5一致

    UFT12的破解方法和UFT11.5一致UFT12的破解方法和UFT11.5一致,不能永久破解,只能试用30天后重新破解。 方法:1.删除C:\ProgramData隐藏目录下的SafeNetSentinel文件夹2.运行QTP安装目录下的bin\instdemo.exe3.重新运行QTP/UFT12后即可恢复30天试用

    2022年5月8日
    120
  • goland在线激活-激活码分享[通俗易懂]

    (goland在线激活)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html…

    2022年3月31日
    79
  • python强制类型转换astype

    python强制类型转换astype在进行将多个表的数据合并到一个表后,发现输出到EXCEL表的数据发生错误,数值型数据末尾都变成了0。这是因为excel数据超过11位,自动以科学计数法显示,其最大处理精度为15位,超过15位,以后数字自动变0。找了一些解决方法,发现用.astype(‘数据类型’)还是挺方便的。我在输出时,将数值型的数据(int)转化成了字符串(str)。使用方法:df.astype(‘数据类型’)  …

    2022年6月11日
    75
  • KNIME数据库扩展指南

    KNIME数据库扩展指南KNIME 数据库扩展指南介绍 KNIME 数据库扩展提供了一组 KNIME 节点 这些节点允许连接到 JDBC 兼容的数据库 这些节点位于 节点存储库 中的 数据库 类别中 您可以在其中找到许多数据库访问 操作和编写节点 数据库节点是每个 KNIMEAnalyti 安装的一部分 不需要安装任何其他的 KNIME 扩展 本指南描述了 KNIME 数据库扩展 并除其他外 展示了如何连接到数据库以及如何在数据库内部执行数据操作 外链图片转存失败 源站可能有防盗链机制 建议将图片保存下来直接上传

    2025年8月15日
    1
  • js判断字符串是否为空格_替换字符串c++

    js判断字符串是否为空格_替换字符串c++//判断字符串是否为空functionisNull(variable){if(variable!==null||variable!==undefined||variable!==”){ if(variable.replace(/(^s*)|(s*$)/g,””).length>0){returnfalse} }returntrue;

    2025年8月2日
    3
  • 关于RecyclerView的notifyDataSetChanged

    关于RecyclerView的notifyDataSetChanged在很久以前,总觉得ListView的notifyDataSetChanged之类的方法很神奇,数据更新后,调用一下,视图就变了…不过自从知道观察者模式以后就没感觉么神奇了,反而对View的绘制测量一系列精细的计算叹为观止—虽然从某种程度上来说,Android的源代码其实挺臃肿的。后面推出了RecyclerView,但其实更新机制并无不同。就如调用notifyDataSetChanged方法:…

    2022年6月29日
    27

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号