分布式爬虫部署[通俗易懂]

分布式爬虫部署[通俗易懂]【服务器端】1.下载redis,RedisDesktopManagerredis。2.修改配置文件(找到redis下的redis.windows.conf双击打开,找到bind并修改为0.0.0.0,然后protected-mode“no”3.打开cmd命令行进入redis的安装目录,输入redis-server.exeredis.windows.conf回车,保持程序一直开着。如果不是这个界面,证明redis服务已经开启了,需要redis-clishutdow

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

【服务器端】

1.下载redis ,Redis Desktop Managerredis。

2.修改配置文件(找到redis下的redis.windows.conf 双击打开,找到bind 并修改为0.0.0.0,然后 protected-mode “no”

3.打开cmd命令行 进入redis的安装目录,输入redis-server.exe redis.windows.conf 回车,保持程序一直开着。

在这里插入图片描述

如果不是这个界面,证明redis服务已经开启了,需要

redis-cli shutdown

        重新输入一次redis-server.exe redis.windows.conf

4.主机开启redis服务之后,不要断开,切记!!! 进入redis安装目录,输入:redis-cli.exe -h 主机(或者别人的)ip地址(-p 端口号6379(可以不用写)),也可以直接redis-cli -h 主机ip 地址用来测试是否可以远程连接redis(如果回车之后没有出现如图效果,检查自己的bind是否修改以及redis服务是否被自己关闭)出现如下表示可以远程连接redis 

在这里插入图片描述

如果想要操作数据库连接中指定数据库(默认的是数据库0),比如操作数据库5可以在命令行输入:redis-cli -h 192.168.0.1 -n 5

详情参考:Redis在命令行中操作指定数据库下的key – 简书

 5在Redis Desktop Managerredis中创建连接,一定要HOST设置成本机的ip,不要是127.0.0.1,要不然分机程序一运行就会一直停顿。

6,向redis输入链接,lpush bole:start_urls 网址

模板:lpush redis_keys  网址

分布式爬虫部署[通俗易懂]

 【爬虫端部署】

爬虫分两种流派,一种是有规则的,一种是无规则的。运行方式各有不通。

共同点:setting.py

LOG_LEVEL='DEBUG'
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'dushu_redis (+http://www.yourdomain.com)'
#配置去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#配置调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
#setting.py 
ROBOTSTXT_OBEY=False
DOWNLOAD_DELAY = 1
REDIS_URL = 'redis://root:@192.168.0.105:6379/0'
ITEM_PIPELINES = {
    #'dushu_redis.pipelines.DushuRedisPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

Jetbrains全家桶1年46,售后保障稳定

(1)【有规则的爬虫】这里一定要开启爬虫过滤   ,否则在有些版本,无法过滤

def make_requests_from_url(self, url):
        return scrapy.Request(url, dont_filter=False)

import scrapy
from scrapy.spiders import Rule
#from scrapy_redis.spiders import RedisSpider
from scrapy.linkextractors import LinkExtractor
from scrapy_redis.spiders import RedisCrawlSpider
class GuoxueSpider(RedisCrawlSpider):
    name = 'bole'
    # start_urls = ['http://blog.jobbole.com/all-posts/']  
    # 添加键
    redis_key = 'bole:start_urls'
    rules = (
        # follow all links
        Rule(LinkExtractor(), callback='parse_page', follow=True),
    )
    def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop('domain', '')
        self.allowed_domains = filter(None, domain.split(','))
        super(GuoxueSpider, self).__init__(*args, **kwargs)
    def make_requests_from_url(self, url):
        return scrapy.Request(url, dont_filter=False)
    def parse_page(self, response):
        aa=response.css('title::text').extract_first()
        print(aa)
        return {
            'name': response.css('title::text').extract_first(),
            'url': response.url,
        }

运行方式 在爬虫的根目录运行scrapy crawl 爬虫名

(2)【无规则的爬虫】
 

from scrapy_redis.spiders import RedisSpider

class GuoxuespiderSpider(RedisSpider):
    """Spider that reads urls from redis queue (myspider:start_urls)."""
    name = 'myspider'
    redis_key = 'bole:start_urls'

    def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop('domain', '')
        self.allowed_domains = filter(None, domain.split(','))
        super(GuoxuespiderSpider, self).__init__(*args, **kwargs)
    def make_requests_from_url(self, url):
        return scrapy.Request(url, dont_filter=False)
    def parse(self, response):
        aa=response.css('title::text').extract_first()
        print(aa)
        return {
            'name': response.css('title::text').extract_first(),
            'url': response.url,
        }

运行方式:

分布式爬虫部署[通俗易懂]

Redis DeskTop Manager 使用教程 – King-DA – 博客园

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/213742.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 同步类容器和并发类容器的区别_jdk提供的用于并发编程的同步器有

    同步类容器和并发类容器的区别_jdk提供的用于并发编程的同步器有一.为什么会出现同步容器?在Java的集合容器框架中,主要有四大类别:List、Set、Queue、Map。注意Collection和Map是顶层接口,而List、Set、Queue接口则分别继承了Collection接口,分别代表数组、集合和队列这三大类容器。像ArrayList、LinkedList都是实现了List接口,HashSet实现了Set接口,而Deque(双向队列,允许…

    2022年9月13日
    2
  • 西门子plc scl语言很少人用_西门子plc的scl语言

    西门子plc scl语言很少人用_西门子plc的scl语言原标题:为什么说SCL将成为西门子PLC的主流编程语言接触S7-1200的时间不是很长,但个人感觉TIAPROTAL中的SCL编程语言还不错,下面是我写的一个传送带的启停程序:bnnyygysaid:我献丑来一个,半成品,给设备改造的,用的欧姆龙CP1L,ST语言功能块,部分节选。wenpiansaid:还是梯形图适合逻辑。ljj977said:程序写的不错。tiaprotal中可以…

    2022年9月13日
    2
  • [Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算

    [Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算从本专栏开始,作者正式开始研究Python深度学习、神经网络及人工智能相关知识。前一篇详细讲解了卷积神经网络CNN原理,并通过TensorFlow编写CNN实现了MNIST分类学习案例。本篇文章将分享gensim词向量Word2Vec安装、基础用法,并实现《庆余年》中文短文本相似度计算及多个案例。本专栏主要结合作者之前的博客、AI经验和相关文章及论文介绍,后面随着深入会讲解更多的Python人工智能案例及应用。基础性文章,希望对您有所帮助~

    2022年6月8日
    31
  • 前向传播算法(Forward propagation)与反向传播算法(Back propagation)「建议收藏」

    前向传播算法(Forward propagation)与反向传播算法(Back propagation)「建议收藏」虽然学深度学习有一段时间了,但是对于一些算法的具体实现还是模糊不清,用了很久也不是很了解。因此特意先对深度学习中的相关基础概念做一下总结。先看看前向传播算法(Forwardpropagation)与反向传播算法(Backpropagation)。1.前向传播如图所示,这里讲得已经很清楚了,前向传播的思想比较简单。举个例子,假设上一层结点i,j,k,…等一些结点与本层的结点w有连接,那么结点

    2022年4月28日
    47
  • 基于epoll的TP传输层实现

    1.抽象TP传输层设计在使用epoll实现实际的传输层之前,先设计一个抽象的传输层,这个抽象的传输层是传输层实现的接口层。接口层中一共有以下几个通用的类或者接口:(1)Socket:通用的套接

    2021年12月28日
    50
  • Java判断List是否为空

    Java判断List是否为空在Java中,我们常用List来存储数据,但是我们怎么判断它是否成功带来了我们需要的数据呢,以ArrayList为例,老规矩,先说结论,建议(list!=null&&!list.isEmpty);接下来是正文:20190723,这鬼天气又闷又热.远在1.99公里外的同事问了我一个问题,,一瞬间,我留下了激动的泪水.日日划水的我终于被发现了一丝价值.真是美好的一天啊….

    2025年8月25日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号