python爬虫常用库

python爬虫常用库python爬虫常用库请求库:1.requests这个库是爬虫最常用的一个库2.SeleniumSelenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下

大家好,又见面了,我是你们的朋友全栈君。

python爬虫常用库

请求库:

1. requests 这个库是爬虫最常用的一个库

2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

3.ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的操作

4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJS

PhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。

6.aiohttp 之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待服务器响应,直到服务器响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

 

解析库:

1.lxml lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱

2.Beautiful Soup

Beautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。

3.pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,

 

数据库:

1.mysql 数据库

2.MongoDB:是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活

3.Redis 是一个基于 存的高效的非关系型数据库,

 

存储库:

1.PyMySOL

2.PyMongo3.redis-py

4.RedisDump

 

web库:

1.Flask 是一个轻量级的Web服务程序,它简单,易用,灵活

2.Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。

 

APP爬取相关库:

1.Charles 是一个网络抓包工具,相比 Fiddler,其功能更为强大 且跨平台支持得更好。

2.mitmproxy 是一个支持HTTP和HTTPS的抓包工具,类似于Fiddler,Charles的功能,只不过它通过控制台的形式操作。

3.Android

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155880.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java到大数据学习路线

    java到大数据学习路线计算机网络 操作系统 数据结构 计算机组成原理 可重点学习如下知识点计算机网络(重点看OSI七层模型或TCP/IP五层模型理解每层含义)数据结构(重点看数组、栈、队列、链表、树)算法(重点看各种排序算法、查找算法、去重算法,最优解算法,多去LeetCode刷算法题)操作系统(重点看进程、线程、IO、调度、内存管理) 数据仓库分为离线数仓和实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。不…

    2022年5月8日
    43
  • pcap文件格式及文件解析[通俗易懂]

    pcap文件格式及文件解析[通俗易懂]第一部分:PCAP包文件格式一基本格式:文件头数据包头数据报数据包头数据报……二、文件头:文件头结构体sturctpcap_file_header{DWORDmagic;DWORDversio

    2022年8月3日
    8
  • idea20213.3激活码[在线序列号]

    idea20213.3激活码[在线序列号],https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月19日
    244
  • ubuntu安装搜狗输入法后黑屏_乌班图如何安装搜狗输入法

    ubuntu安装搜狗输入法后黑屏_乌班图如何安装搜狗输入法1、ubuntu系统配置systemsettings->languagesupport->install/removelanguages,在弹出的菜单中选择Chinese(simplified),点击apply2、配置输入法框架搜狗输入法是建立在fcitx框架之上的,所以要将输入法框架选择为fictx,注意:如果没有fcitx选项,那么你就需…

    2022年9月26日
    0
  • java属于什么语言_java语言属于什么语言?

    java属于什么语言_java语言属于什么语言?JAVA语言是一种介于解释型语言和编译型语言之间的面向对象语言,属于高级混合型语言。Java代码需要先编译成class,然后交给JVM执行。而JVM在执行class代码时是解释执行的,所以Java不是一门单纯的编译型或解释型语言,它是一门混合型语言。它是集编译型语言和解释型语言的优势于一身,即执行速度较快,只需编写和编译一次,从而逐步发展成了一门高级语言。Java语言是一个支持网络计算的面向对象程…

    2022年7月7日
    19
  • webpack版本问题_webpack查询有没有安装

    webpack版本问题_webpack查询有没有安装卸载后重新安装卸载重新安装卸载#卸载全局npmuninstall-gwebpack-clinpmuninstall-gwebpack#卸载局部npmuninstallwebpack-clinpmuninstallwebpack重新安装npminstall-g–save-devwebpack@version#不指定版本,默认安装最新npminstall-g–save-devwebpack-cli#查看webpack-v#若命令不存在,

    2022年8月10日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号