Python爬虫入门这一篇就够了「建议收藏」

Python爬虫入门这一篇就够了「建议收藏」何谓爬虫所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。爬虫三要素抓取分析存储基础

大家好,又见面了,我是你们的朋友全栈君。

何谓爬虫

所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。

爬虫三要素

抓取

分析

存储

基础的抓取操作

1、urllib

在Python2.x中我们可以通过urllib 或者urllib2 进行网页抓取,但是再Python3.x 移除了urllib2。只能通过urllib进行操作

Python爬虫入门这一篇就够了「建议收藏」

 

带参数的urllib

url = ‘https://blog.csdn.net/weixin_43499626’

url = url + ‘?’ + key + ‘=’ + value1 + ‘&’ + key2 + ‘=’ + value2

2、requests

requests库是一个非常实用的HTPP客户端库,是抓取操作最常用的一个库。Requests库满足很多需求

Python爬虫入门这一篇就够了「建议收藏」

 

需要登录的情况下

1、表单提交登录

向服务器发送一个post请求并携带相关参数,将服务器返回的cookie保存在本地,cookie是服务器在客户端上的“监视器”,记录了登录信息等。客户端通过识别请求携带的cookie,确定是否登录

Python爬虫入门这一篇就够了「建议收藏」

 

2、cookie登录

我们可以将登录的cookie存储在文件中,

Python爬虫入门这一篇就够了「建议收藏」

 

常见的反爬有哪些

1、通过user-agent来控制访问

user-agent能够使服务器识别出用户的操作系统及版本、cpu类型、浏览器类型和版本。很多网站会设置user-agent白名单,只有在白名单范围内的请求才能正常访问。所以在我们的爬虫代码中需要设置user-agent伪装成一个浏览器请求。有时候服务器还可能会校验Referer,所以还可能需要设置Referer(用来表示此时的请求是从哪个页面链接过来的)

Python爬虫入门这一篇就够了「建议收藏」

 

如下是CSDN中的Request Header中的信息

Python爬虫入门这一篇就够了「建议收藏」

 

2、通过IP来限制

当我们用同一个ip多次频繁访问服务器时,服务器会检测到该请求可能是爬虫操作。因此就不能正常的响应页面的信息了。

解决办法常用的是使用IP代理池。网上就有很多提供代理的网站、

Python爬虫入门这一篇就够了「建议收藏」

 

3、设置请求间隔

import time

time.sleep(1)

4、自动化测试工具Selenium

Web应用程序测试的Selenium工具。该工具可以用于单元测试,集成测试,系统测试等等。它可以像真正的用户一样去操作浏览器(包括字符填充、鼠标点击、获取元素、页面切换),支持Mozilla Firefox、Google、Chrome、Safari、Opera、IE等等浏览器。

5、参数通过加密

某些网站可能会将参数进行某些加密,或者对参数进行拼接发送给服务器,以此来达到反爬虫的目的。这个时候我们可以试图通过js代码,查看激活成功教程的办法。

连接xxx

或者可以使用”PhantomJS”,PhantomJS是一个基于Webkit的”无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器更高效。

6、通过robots.txt来限制爬虫

robots.txt是一个限制爬虫的规范,该文件是用来声明哪些东西不能被爬取。如果根目录存在该文件,爬虫就会按照文件的内容来爬取指定的范围。

浏览器访问https://www.taobao.com/robots.txt

可以查看淘宝的robots.txt文件

部分内容如下

User-agent: BaiduspiderDisallow: /product/Disallow: /User-Agent: GooglebotDisallow: /User-agent: BingbotDisallow: /User-Agent: 360SpiderDisallow: /User-Agent: YisouspiderDisallow: /User-Agent: SogouspiderDisallow: /User-Agent: Yahoo! SlurpDisallow: /User-Agent: *Disallow: /

可以看出淘宝拒绝了百度爬虫、谷歌爬虫、必应爬虫、360爬虫、神马爬虫,搜狗爬虫、雅虎爬虫等约束。

分析

我们可以分析爬取的网页内容,获得我们真正需要的数据,常用的有正则表达式,BeautifulSoup,XPath、lxml等

正则表达式是进行内容匹配,将符合要求的内容全部获取;

xpath()能将字符串转化为标签,它会检测字符串内容是否为标签,但是不能检测出内容是否为真的标签;

Beautifulsoup是Python的一个第三方库,它的作用和 xpath 作用一样,都是用来解析html数据的相比之下,xpath的速度会快一点,因为xpath底层是用c来实现的

存储

通过分析网页内容,获取到我们想要的数据,我们可以选择存到文本文件中,亦可以存储在数据库中,常用的数据库有MySql、MongoDB

存储为json文件

Python爬虫入门这一篇就够了「建议收藏」

 

存储为cvs文件

Python爬虫入门这一篇就够了「建议收藏」

 

存储到Mongo

Python爬虫入门这一篇就够了「建议收藏」

 
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/156034.html原文链接:https://javaforall.net

(0)
上一篇 2022年7月6日 上午9:36
下一篇 2022年7月6日 上午9:46


相关推荐

  • MATLAB 处理大数据

    MATLAB 处理大数据如何处理大规模的快数据集大数据指的是创建的数据和供分析的数据的数量与速率迅速增加。此趋势的主要驱动因素是不断增加的信息数字化。采集设备的数量和类型以及其他数据生成机制无时无刻不在增加。大数据源包括来自仪表传感器、卫星和医疗图像的流数据,来自安全摄像机的视频以及派生自金融市场和零售运营的数据。上述来源的大数据集可以包含千兆字节或百万兆字节的数据,并且每天以兆字节或千兆字节的级别增长。

    2022年5月23日
    142
  • 服务器的cd驱动器怎么修改盘符,windows 2016 修改驱动器盘符

    服务器的cd驱动器怎么修改盘符,windows 2016 修改驱动器盘符windows2016修改驱动器盘符内容精选换一换本文以服务器的操作系统为“WindowsServer2016Standard64bit”为例,提供云硬盘的初始化操作指导。MBR格式分区支持的磁盘最大容量为2TB,GPT分区表最大支持的磁盘容量为18EB,因此当为容量大于2TB的磁盘分区时,请采用GPT分区方式。关于磁盘分区形式的更多介绍,请参见初始化数据盘场景及磁盘分区形本文…

    2022年5月18日
    61
  • 并非目不转睛的404网页

    效果:http://hovertree.com/texiao/js/26/请移动鼠标看看效果。效果图如下:代码如下:转自:http://hovertree.com/h/bjaf/js404page

    2021年12月24日
    45
  • 未来软件的用户将不是人…

    未来软件的用户将不是人…

    2026年3月14日
    1
  • wrk 安装及使用

    wrk 安装及使用1 克隆 wrk 安装文件到本地 gitclonehttp github com wg wrk git2 编译 wrk 文件 cdwrk amp amp make 若出现错误 xmlto commandnotfo 可以尝试重新安装 xmlto yum yinstallxmlt 拷贝可执行文件到 PATH 目录下 cpwrk usr l

    2026年3月18日
    2
  • scihub论文下载_谷歌学术和scihub的区别

    scihub论文下载_谷歌学术和scihub的区别谷歌学术+SCI-HUB一键下载SCI文献公众号后台回复【万能侠】,免费获得该软件最高版小编经过广泛收集,提供7个谷歌学术有效网址,3个SCIHUB实时更新,永久有效网址Google学术搜索提供可广泛搜索学术文献的简便方法。可以从一个位置搜索众多学科和资料来源:来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。Google学术搜索可帮助您在整个学术领域中确定相关性最强的研究。SCI-HUB提供数以百万计的免费接入研究论文和书籍,由亚历山德

    2022年10月11日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号