python常见的5种框架

python常见的5种框架1.scrapy框架scrapy框架是一套比较成熟的python爬虫框架,是使用python开发的快速、高层次的信息爬取框架,可以高效率地爬取web页面并提取出我们关注的结构化数据。scrapy框架的应用领域有许多,比如网络爬虫,数据挖掘、数据监测、自动化测试等。scrapy框架是一套开源的框架,…

大家好,又见面了,我是你们的朋友全栈君。

1.scrapy框架

               scrapy框架是一套比较成熟的python爬虫框架,是使用python开发的快速、高层次的信息爬取框架,可以高效率地爬取web页面并提取出我们关注的结构化数据。

               scrapy框架的应用领域有许多,比如网络爬虫,数据挖掘、数据监测、自动化测试等。

               scrapy框架是一套开源的框架,开源也就意味着我们能够看到并且免费试用scrapy的所有代码。

2.crawley框架

               crawley也是使用python开发出来的一款爬虫框架,该框架致力于改变人们从互联网中提取数据的方式,让大家可以更高效地从互联网中爬取对应内容。

                crawley框架的主要特点有:

                1>高速爬取对应网站内容

                 2> 可以将爬取到内容轻松地存储到数据库中,比如:postgres,mysql,oracle,sqlite等数据库

                 3>可以将爬取到的数据导出为json,xml等格式

                 4>支持非关系型数据库,比如:mongodb,couchdb等

                 5>支持使用命令行工具

                 6>可以使用你喜欢的工具提取数据,比如使用xpath或者pyquery等工具

                 7>支持使用cookie登陆并访问哪些只有登陆才能够访问的网页

                 8>简单易学

3.portia框架

                  portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架,给出你要爬取的网页中感兴趣的数据内容,通过portia框架,可以将你所需要的信息从相似的网页中自动提取出来,如果需要,可以子啊github上的主页进行获取。如果需要,上百度自己查吧,,具体的我就不写了。

 4.newspaper框架

                   newspaper框架是一种用来提取新闻、文章以及内容分析的python爬虫框架。更准确地说,newspaper是一个python的库,只不过这个库是由第三方开发的,可以归为一种框架。

                    newspaper框架在的主要特点:

                     1>比较简单

                     2>速度比较快

                     3>支持多线程

                     4>支持十多种语言

                     由此我们可以知道newspaper框架是轻量级框架,并且就爬取文章信息这一功能来说,使用起来很方便

5.Python-goose框架

                      coose本来是一款用java写的文章提取工具,Xavier Grangier用python重写了goose,并将重写后goose命名为python-goose。

                      所以,python-coose框架实现的功能同样是进行文章提取。

 

 

以上是python常用的5种框架,这是我知道,,如果各位大神,还有其他的 ,也可以留言,相互沟通,学习。另外后面3种框架可以再github上找到。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134623.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 系统运维架构师体系[通俗易懂]

    系统运维架构师体系[通俗易懂]一、系统运维架构师体系1.系统运维架构体系排列:2.Linux运维架构的薪资水平:3.Linux运维的技能进化论4.Linux运维大致的知识框架4-1.Linux系统初级体系4-2.Linux系统中高级体系5.Linux运维的具体规划实践5-1.Linux运维基础5-2.Linux运维进阶6.Linux工作的必备要求7.Linux运维学习建议一、系统运维架构师体系1.系统运维架构体系排列:Linux运维工程师应用运维工程师,大数据运维工程师,运维开发工程师,云计算运维工程.

    2022年7月17日
    18
  • Django(7)url命名的作用「建议收藏」

    Django(7)url命名的作用「建议收藏」前言为什么我们url需要命名呢?url命名的作用是什么?我们先来看一个案例案例我们先在一个Django项目中,创建2个App,前台front和后台cms,然后在各自app下创建urls.py文件

    2022年7月29日
    9
  • @JsonIgnore作用「建议收藏」

    @jsonignore的作用作用是json序列化时将javabean中的一些属性忽略掉,序列化和反序列化都受影响。如下:packagecom.hzboy.orm;importjava.util.List;importjavax.persistence.CascadeType;importjavax.persistence.Column;importj

    2022年4月11日
    121
  • java的集合和数组_Java集合和数组的区别

    java的集合和数组_Java集合和数组的区别Java 集合和数组的区别集合和容器都是 Java 中的容器 区别数组特点 大小固定 只能存储相同数据类型的数据集合特点 大小可动态扩展 可以存储各种类型的数据转换数组转换为集合 Arrays asList 数组 示例 int arr 1 3 4 6 6 Arrays asList arr for inti 0 iSystem out println arr i 集合转换为数组 集

    2025年10月12日
    8
  • 数据库是什么?数据库详细笔记!带你走进数据库~你想知道的这里都有!

    数据库是什么?数据库详细笔记!带你走进数据库~你想知道的这里都有!

    2021年6月5日
    132
  • python 请在微信客户端打开_(未解决)jmeter报错之“请在微信客户端打开链接”

    python 请在微信客户端打开_(未解决)jmeter报错之“请在微信客户端打开链接”这是一个还没解决的问题,这里纯粹记录自己思考的过程,后续给自己参考。先说明情景:对微信公众号的一个接口进行调用跑通,后续可能需要压测(是的,仅仅是调通一个接口而已o(╥﹏╥)o)1、按照我理解的正常套路,我直接请求对应的接口,然后通过抓包得到Cookie,写入到HTTPCookie管理器中,如下:emmmm….开始百度,发现也有类似的提问,但是没有一个靠谱有效的答案。然后我就去分析登录过程了…

    2022年5月2日
    50

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号