scrapy-splash简单使用

scrapy-splash简单使用scrapy splash 简单使用 1 docker 安装 splashdocker 查看 docker 信息 dockerimages 查看所有镜像 dockerpullsc splash 安装 scrapinghub splashdocker p8050 8050scraping splash amp 指定 8050 端口运行 2 pipinstallsc splash3 s

    2.pip install scrapy-splash

 

测试代码:

import datetime import os import scrapy from scrapy_splash import SplashRequest from ..settings import LOG_DIR class SplashSpider(scrapy.Spider): name = 'splash' allowed_domains = ['biqugedu.com'] start_urls = ['http://www.biqugedu.com/0_25/'] custom_settings = { 'LOG_FILE': os.path.join(LOG_DIR, '%s_%s.log' % (name, datetime.date.today().strftime('%Y-%m-%d'))), 'LOG_LEVEL': 'INFO', 'CONCURRENT_REQUESTS': 8, 'AUTOTHROTTLE_ENABLED': True, 'AUTOTHROTTLE_TARGET_CONCURRENCY': 8, 'SPLASH_URL': 'http://localhost:8050', 'DOWNLOADER_MIDDLEWARES': { 'scrapy_splash.SplashCookiesMiddleware': 723, 'scrapy_splash.SplashMiddleware': 725, 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810, }, 'SPIDER_MIDDLEWARES': { 'scrapy_splash.SplashDeduplicateArgsMiddleware': 100, }, 'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter', 'HTTPCACHE_STORAGE': 'scrapy_splash.SplashAwareFSCacheStorage', } def start_requests(self): yield SplashRequest(self.start_urls[0], callback=self.parse, args={'wait': 0.5}) def parse(self, response): """ :param response: :return: """ response_str = response.body.decode('utf-8', 'ignore') self.logger.info(response_str) self.logger.info(response_str.find('http://www.biqugedu.com/files/article/image/0/25/25s.jpg')) 

 

scrapy-splash接收到js请求:

scrapy-splash简单使用

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/219810.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午9:50
下一篇 2026年3月17日 下午9:50


相关推荐

  • gcc离线安装 ubuntu 不用编译_「ubuntu安装gcc」ubuntu18.04安装gcc详细步骤(附问题集) – seo实验室…[通俗易懂]

    gcc离线安装 ubuntu 不用编译_「ubuntu安装gcc」ubuntu18.04安装gcc详细步骤(附问题集) – seo实验室…[通俗易懂]ubuntu安装gcc首先是下载gcc包,可以在GCC的官方网站http://gcc.gnu.org/下载到各个版本。目前最高版本是gcc-8.2.0。一、在安装gcc前,需要先安装MPFR、GMP和MPCGCC编译需要mpfr和mpc(–>gmp、–>mpfr)库的支持,依次安装这几个库,其中mpfr可直接安装,安装mpc依赖mpfr和gmp库(对版本有要求,建议安装最…

    2022年7月24日
    35
  • 没有网线情况下使用树莓派连接WiFi

    没有网线情况下使用树莓派连接WiFi没有网线情况下使用树莓派连接WiFi烧录系统后,在boot/文件夹下创建wpa_supplicant.conf文件添加代码:country=CNctrl_interface=DIR=/var/run/wpa_supplicantGROUP=netdevupdate_config=1在尾部添加network={ssid=”你无线的名字”//无线名称psk=”你无线的密码”//无线密码}树莓派开机,可自动连接WiFi…

    2022年5月6日
    100
  • latex中求和符号正下方的符号怎么打_累加符号上下标的意义

    latex中求和符号正下方的符号怎么打_累加符号上下标的意义放在左上角的时候\sum^n:∑n\sum^n∑n放在正上方的时候\sum\limits^n:∑n\sum\limits^n∑n​放在右下角的时候\sum_{k=1}:∑k=1\sum_{k=1}∑k=1​放在正下方的时候\sum\limits_{k=1}:∑k=1\sum\limits_{k=1}k=1∑​

    2022年10月11日
    4
  • 前端框架bootstrap和layui有什么区别

    前端框架bootstrap和layui有什么区别做前端的小伙伴肯定都用过或听过Bootstrap和LayUi,小编我虽然不是专业的前端程序员,但是对于前端还是颇有研究,闲暇事情会经常研究各种前端框架的源码,一来可以借鉴优秀框架的思想,二来可以顺便学习可以提高自己,好了,不废话了。web前端全栈资料粉丝福利(面试题、视频、资料笔记、进阶路线)先看百度Bootstrap的定义Bootstrap是美国Twitter公司的设计师MarkOtto和JacobThornton合作基于HTML、CSS、JavaScript开发的简洁、直观、强悍的前端

    2022年6月25日
    48
  • 查看文件句柄数 linux_linux文件句柄数量怎么看

    查看文件句柄数 linux_linux文件句柄数量怎么看查看系统的最大文件句柄数和文件句柄的使用者PIDulimit-n查看当前系统的最大句柄数显示如下ulimit-HSnx设置当前系统的文件句柄数为x以上命令中,H指定了硬性大小,S指定了软性大小,n表示设定单个进程最大的打开文件句柄数量。个人觉得最好不要超过4096,毕竟打开的文件句柄数越多响应时间肯定会越慢。设定句柄数量后,系统重启后,又会恢复默认值。如果想永久保存下来,可以修…

    2022年10月17日
    3
  • Docker OpenClaw 生产环境部署指南(单机架构版)

    Docker OpenClaw 生产环境部署指南(单机架构版)

    2026年3月13日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号