python爬虫常用库

python爬虫常用库python爬虫常用库请求库:1.requests这个库是爬虫最常用的一个库2.SeleniumSelenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下

大家好,又见面了,我是你们的朋友全栈君。

python爬虫常用库

请求库:

1. requests 这个库是爬虫最常用的一个库

2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

3.ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的操作

4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJS

PhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。

6.aiohttp 之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待服务器响应,直到服务器响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

 

解析库:

1.lxml lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱

2.Beautiful Soup

Beautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。

3.pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,

 

数据库:

1.mysql 数据库

2.MongoDB:是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活

3.Redis 是一个基于 存的高效的非关系型数据库,

 

存储库:

1.PyMySOL

2.PyMongo3.redis-py

4.RedisDump

 

web库:

1.Flask 是一个轻量级的Web服务程序,它简单,易用,灵活

2.Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。

 

APP爬取相关库:

1.Charles 是一个网络抓包工具,相比 Fiddler,其功能更为强大 且跨平台支持得更好。

2.mitmproxy 是一个支持HTTP和HTTPS的抓包工具,类似于Fiddler,Charles的功能,只不过它通过控制台的形式操作。

3.Android

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155880.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 20考研 | 2020考研全程规划,19上岸复旦学长。各科各阶段复习规划。

    20考研 | 2020考研全程规划,19上岸复旦学长。各科各阶段复习规划。下面我在分享一下我之前写过的一篇文章高能干货预警文章目前30142字,这可能是最负责的一篇文章了。文章很长,建议拿好笔记慢慢看。本文会解决你在考研各科在不同时期不同阶段遇到的所有问题,方法具体到草稿纸怎么使用,课本具体怎么使用,相信我,读完你一定会有巨大收获。我总结了我一年以来遇到的所有问题,使用的所有方法。既然最终目的是在考研这场「考试」中获得高分,那么所有的时间和精力,都应该围绕…

    2022年9月24日
    0
  • MATLAB 2018b 安装与简介

    MATLAB 2018b 安装与简介matlab2018b安装教程该版本是mathworks官方开发的新版本的商业数学软件,可以帮助用户不仅仅将自己的创意停留在桌面,还可以对大型数据集运行分析,并扩展到群集和云。另外matlab代码可以与其他语言集成,使您能够在Web、企业和生产系统中部署算法和应用程序。与matlab2018a相比,matlab2018b拥有更多数据分析、机器学习和深度学习选项,并且速度比以往更快。其亮点…

    2022年6月10日
    89
  • sqldeveloper如何连接数据库_创建数据库的五个步骤

    sqldeveloper如何连接数据库_创建数据库的五个步骤转载出处:https://blog.csdn.net/u010185220/article/details/53106196SQLDeveloper不能用于创建Oracle数据库,只能用来连接已经创建的数据库,数据库的建立要通过DatabaseConfigurationAssistant(DBCA)来完成。找到开始菜单中Oracle-OraDb11g_home1下…

    2022年9月15日
    0
  • vs2008激活、序列号

    vs2008激活、序列号参考:VS2008简体中文正式版序列号(到期解决办法)​​​​​​​链接:https://pan.baidu.com/s/1xKXW3h585jYOU26EdINsIg提取码:a1wu复制这段内容后打开百度网盘手机App,操作更方便哦…

    2022年7月20日
    25
  • 机械振动单位_机械振幅单位

    机械振动单位_机械振幅单位振动一般可以用以下三个单位表示:mm、mm/s、mm/(s^2)。mm振动位移:一般用于低转速机械的振动评定;7丝就是70um,是振动位移值。mm/s振动速度:一般用于中速转动机械的振动评定;一

    2022年8月6日
    3
  • DB2 递归查询_oracle递归查询所有子节点

    DB2 递归查询_oracle递归查询所有子节点以父子节点定义的表数据递归查询:DB2 递归查询WITH temp(id,parentid,level)    AS   ( SELECT id,parentid,0   FROM AMIS_WF_NODE WHERE parentid = ‘4028e48146a3c33d0146a3cd9e860022’  UNION ALL   SELECT b.id,b.pare

    2025年7月12日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号