Python网络爬虫精要

Python网络爬虫精要

大家好,又见面了,我是全栈君。

目的

学习如何从互联网上获取数据。数据科学必须掌握的技能之一。

本文所用到的第三方库如下: requests, parsel, selenium

requests负责向网页发送HTTP请求并得到响应,parsel负责解析响应字符串,selenium负责JavaScript的渲染。

网络爬虫是什么

网络爬虫是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

如何爬取网站信息

写爬虫之前,我们必须确保能够爬取目标网站的信息。

不过在此之前必须弄清以下三个问题:

  1. 网站是否已经提供了api

  2. 网站是静态的还是动态的

  3. 网站是否有反爬的对策

情形1:开放api的网站

一个网站倘若开放了api,那你就可以直接GET到它的json数据。

比如xkcd的about页就提供了api供你下载

import requests
requests.get('https://xkcd.com/614/info.0.json').json()

那么如何判断一个网站是否开放api呢?有3种方法:

  1. 在站内寻找api入口

  2. 用搜索引擎搜索“某网站 api”

  3. 抓包。有的网站虽然用到了ajax(比如果壳网的瀑布流文章),但是通过抓包还是能够获取XHR里的json数据的。

怎么抓包:F12 – Network – F5刷新即可 | 或者用fiddle等工具也可以

情形2:不开放api的网站

如果此网站是静态页面,那么你就可以用requests库发送请求,再用HTML解析库(lxml、parsel等)来解析响应的text

解析库强烈推荐parsel,不仅语法和css选择器类似,而且速度也挺快,Scrapy用的就是它。

你需要了解一下css选择器的语法(xpath也行),并且学会看网页的审查元素。

比如获取konachan的所有原图链接

from parsel import Selector
res = requests.get('https://konachan.com/post')
tree = Selector(text=res.text)
imgs = tree.css('a.directlink::attr(href)').extract()

如果此网站是动态页面,先用selenium来渲染JS,再用HTML解析库来解析driver的page_source。

比如获取hitomi.la的数据(这里把chrome设置成了无头模式)

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get('https://hitomi.la/type/gamecg-all-1.html')
tree = Selector(text=driver.page_source)
gallery_content = tree.css('.gallery-content > div')

情形3:反爬的网站

目前的反爬策略常见的有:验证码、登录、封ip等。

验证码:利用打码平台破解(如果硬上的话用opencv或keras训练图)

登录:利用requests的post或者selenium模拟用户进行模拟登陆

封ip:买些代理ip(免费ip一般都不管用),requests中传入proxies参数即可

其他防反爬方法:伪装User-Agent,禁用cookies等

推荐用fake-useragent来伪装User-Agent

from fake_useragent import UserAgent
headers = {'User-Agent': UserAgent().random}
res = requests.get(url, headers=headers)

如何编写结构化的爬虫

如果能成功地爬取网站信息,那么你已经成功了一大半。

其实爬虫的架构很简单,无非就是创造一个tasklist,对tasklist里的每一个task调用crawl函数。

大多数网页的url构造都是有规律的,你只需根据它用列表推倒式来构造出tasklist对于那些url不变的动态网页,先考虑抓包,不行再用selenium点击下一页
如果追求速度的话,可以考虑用concurrent.futures或者asyncio等库。

import requests
from parsel import Selector
from concurrent import futures

domain = 'https://www.doutula.com'

def crawl(url):
    res = requests.get(url)
    tree = Selector(text=res.text)
    imgs = tree.css('img.lazy::attr(data-original)').extract()
    # save the imgs ...

if __name__ == '__main__':
    tasklist = [f'{domain}/article/list/?page={i}' for i in range(1, 551)]
    with futures.ThreadPoolExecutor(50) as executor:
        executor.map(crawl, tasklist)

数据存储的话,看你的需求,一般都是存到数据库中,只要熟悉对应的驱动即可。

常用的数据库驱动有:pymysql(MySQL),pymongo(MongoDB)

如果你需要框架的话

文章读到这里,你应该对爬虫的基本结构有了一个清晰的认识,这时你可以去上手框架了。

轻量级框架(looter):https://github.com/alphardex/looter

工业级框架(scrapy):https://github.com/scrapy/scrapy

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/112168.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 世界地图行政区划图_世界行政区划图册

    世界地图行政区划图_世界行政区划图册序号 国家 省 城市 4007 法国 上法兰西大区   4008 法国 上法兰西大区 万格勒 4009 法国 上法兰西大区 乌普利讷 4010 法国 上法兰西大区 于吕什 4011 法国 上法兰西大区 代兰库尔 4012 法国 上法兰西大区 代夫勒 4013 法国 上法兰西大区 伊夫里莱唐普尔 4014 法国 上法兰西大区

    2022年9月1日
    4
  • Ubuntu 21.04 lts_Ubuntu 21.10

    Ubuntu 21.04 lts_Ubuntu 21.10Ubuntu粉丝!是时候对下一个大版本Ubuntu22.04LTS感到兴奋了。是的。这是一个长期支持版本,将支持五年,直到2027年4月。即将发布的LTS版本带来了几个新功能。如果您使用的是Ubuntu20.04LTS,您会注意到许多视觉变化。如果您使用的是Ubuntu21.10,您已经看到了很多变化,但在即将发布的版本中仍然会有一些新变化。在我向您展示22.04中新的预期新功能之前,让我们看看它什么时候发布。Ubuntu22.04发布时间表Ubunt

    2025年8月27日
    8
  • python小游戏实现代码

    python小游戏实现代码早上逛CSDN首页就见到这么一篇教程。看了一下很有意思,就马上动手实现了一下。看看效果吧:完整代码:#-*-coding:utf-8-*-#1-Importlibraryimport

    2022年7月5日
    24
  • 【SpringBoot】1、创建第一个SpringBoot项目

    【SpringBoot】1、创建第一个SpringBoot项目创建SpringBoot项目可以通过两种方式,1、通过访问:https://start.spring.io/,SpringBoot的官方网站进行创建SpringBoot项目;2、通过工具(例如:Idea)创建SpringBoot项目。本次使用开发工具:Idea创建我的第一个SpringBoot项目。首先,打开我们的Idea开发工具选择CreateNewPoject(创建一个新的项目)…

    2022年10月13日
    2
  • Mac上的抓包工具Charles

    Mac上的抓包工具Charles今天就来看一下Mac上如何进行抓包,之前有一篇文章介绍了使用Fidder进行抓包http://blog.csdn.net/jiangwei0910410003/article/details/19806999不过可惜的是,Fidder使用C#开发的,所以就不能在Mac上使用了,不过还有另外一个抓包神器,就是Charles,它是Java开发的,所以跨平台,不仅可以在Mac上使

    2022年5月9日
    52
  • [乐意黎原创] 百度统计这个坑爹货

    [乐意黎原创] 百度统计这个坑爹货

    2022年1月24日
    55

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号