网络爬虫——scrapy案例「建议收藏」

全栈程序员-站长 • 2022年6月26日下午4:16 • 未分类 • 阅读 44

大家好，又见面了，我是你们的朋友全栈君。

1.创建项目

打开一个终端输入（建议放到合适的路径下，默认是C盘）

scrapy startproject TXmovies

cd TXmovies

scrapy genspider txms v.qq.com

2.修改setting

修改三项内容，第一个是不遵循机器人协议，第二个是下载间隙，由于下面的程序要下载多个页面，所以需要给一个间隙（不给也可以，只是很容易被侦测到），第三个是请求头，添加一个User-Agent，第四个是打开一个管道

ROBOTSTXT_OBEY=False

DOWNLOAD_DELAY=1

DEFAULT_REQUEST_HEADERS={

‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8′,

‘Accept-Language’:’en’,

‘UserAgent’:’Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/27.0.1453.94Safari/537.36′

}

ITEM_PIPELINES={

‘TXmovies.pipelines.TxmoviesPipeline’:300,

}

3.确认要提取的数据，item项

item定义你要提取的内容（定义数据结构），比如我提取的内容为电影名和电影描述，我就创建两个变量。Field方法实际上的做法是创建一个字典，给字典添加一个建，暂时不赋值，等待提取数据后再赋值。下面item的结构可以表示为：{‘name’:”,’descripition’:”}。

#-*-coding:utf-8-*-

#Define here the models for your scraped items

#See documentation in:

#https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class TxmoviesItem (scrapy.Item):

#define the fields for your item here like:

#name=scrapy.Field()

name=scrapy.Field()

description=scrapy.Field()

4.写爬虫程序

5.交给管道输出

管道可以处理提取的数据，如存数据库。我们这里仅输出。

#-*-coding:utf-8-*-

#Define your item pipelines here

##Don’t forget to add your pipeline to the ITEM_PIPELINES setting #See:https://docs.scrapy.org/en/latest/topics/item-pipeline.html

classTxmoviesPipeline(object):

def process_item(self,item,spider):

print(item)

return item

6.run，执行项目

from scrapy import cmdline

cmdline.execute(‘scrapy crawl txms’.split()

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/153147.html原文链接：https://javaforall.net

网络爬虫——scrapy案例「建议收藏」

1.创建项目

2.修改setting

3.确认要提取的数据，item项

4.写爬虫程序

5.交给管道输出

6.run，执行项目

关于作者

全栈程序员-站长

发表回复

网络爬虫——scrapy案例「建议收藏」

1.创建项目

2.修改setting

3.确认要提取的数据，item项

4.写爬虫程序

5.交给管道输出

6.run，执行项目

关于作者

全栈程序员-站长

相关推荐

Django（25）WSGIRequest对象[通俗易懂]

iocomp-Crack|New Version最新【2021】「建议收藏」

完整教程：2026年阿里云五种方案快速部署 OpenClaw（Clawdbot）详细教程

BigDecimal中divide方法详解

Fungus插件_插件大师

export_symbol的使用

发表回复