scrapy爬虫学习系列四:portia的学习入门

scrapy爬虫学习系列四:portia的学习入门系列文章列表 scrapy 爬虫学习系列一 scrapy 爬虫环境的准备 nbsp nbsp nbsp nbsp http www cnblogs com zhaojiedi199 p zhaojiedi python 007 scrapy01 htmlscrapy 爬虫学习系列二 scrapy 简单爬虫样例学习 http www cnblogs com zhaojiedi199 p zhaojiedi

系列文章列表:

scrapy爬虫学习系列一:scrapy爬虫环境的准备:       http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html

scrapy爬虫学习系列二:scrapy简单爬虫样例学习:   http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html

scrapy爬虫学习系列三:scrapy部署到scrapyhub上:   http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html

scrapy爬虫学习系列四:portia的学习入门:       http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html

 

portia的简介:

Portia是我们的开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站!简单地注释您感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据

scrapyhub上的一些简介视频(需FQ): https://helpdesk.scrapinghub.com/support/solutions/articles/-learn-portia-video-tutorials-

scrapyhub上的完整入门手册: https://helpdesk.scrapinghub.com/support/solutions/articles/-using-portia-the-complete-beginner-s-guide

前言:

本文打算使用scrapy官方提供的demo网页(http://quotes.toscrape.com/page/1/)执行工程创建,这个网页相信大家都很熟悉了。那我们这就开始吧。

1.打开官网https://app.scrapinghub.com/

scrapy爬虫学习系列四:portia的学习入门

2.创建工程

scrapy爬虫学习系列四:portia的学习入门

3.设置开始抓取网页

scrapy爬虫学习系列四:portia的学习入门

4.创建爬虫

scrapy爬虫学习系列四:portia的学习入门

5.创建样例页

 scrapy爬虫学习系列四:portia的学习入门

6.设置元素获取方式

6.1添加content字段

scrapy爬虫学习系列四:portia的学习入门

scrapy爬虫学习系列四:portia的学习入门

scrapy爬虫学习系列四:portia的学习入门

6.2添加author字段

scrapy爬虫学习系列四:portia的学习入门

6.3添加tag字段

scrapy爬虫学习系列四:portia的学习入门

scrapy爬虫学习系列四:portia的学习入门

7.运行爬虫

scrapy爬虫学习系列四:portia的学习入门

8.查看爬虫结果

scrapy爬虫学习系列四:portia的学习入门

9.查看爬虫运行结果

scrapy爬虫学习系列四:portia的学习入门

10.查看item结果

scrapy爬虫学习系列四:portia的学习入门

11.下载我们可视化的源码吧

scrapy爬虫学习系列四:portia的学习入门

我这个时间下载到的scrapy貌似没法运行,貌似官方网址有点问题,但是portia是可以用的。当然我们可以使用portia2code去转换portia代码为scrapy代码。

具体步骤可以参考如下网址:https://helpdesk.scrapinghub.com/support/solutions/articles/-how-do-i-download-my-portia-2-0-project-into-a-scrapy-project-

好了。我们使用的portia就是可以获取指定网页的数据,详细的大家可以自己摸索摸索。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/229617.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月16日 下午4:17
下一篇 2026年3月16日 下午4:18


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号