python爬虫-数据解析(正则)

python爬虫-数据解析(正则)

python爬虫-数据解析(正则)

正则解析案例–爬取糗事百科的图片

糗事百科URL
https://www.qiushibaike.com/imgrank/page/2/

在这里插入图片描述
查看网页源代码,发现图片储存的地址

import requests
import re
import os


if __name__ == '__main__':
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }
    #判断是否存在qiushi文件夹,如果不存在就创建一个
    if not os.path.exists('./qiushi'):
        os.mkdir('./qiushi')
        
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    for pageNum in range(1,3):
        new_url = format(url%pageNum)
		#通用爬虫请求页面数据
        gate_text = requests.get(url=new_url,headers=headers).text
        
        ex = '<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>'
        #正则匹配,匹配出图片地址
        ex_data = re.findall(ex,gate_text,re.S)
        
        for src in ex_data:
        	#拼接出完整的图片URL
            src = 'https:'+src
            #请求图片二进制数据
            img_data = requests.get(url=src,headers=headers).content
            img_name = src.split('/')[-1]
            img_path = './qiushi/' + img_name
            #创建并写入图片二进制数据
            with open(img_path,'wb') as fp:
                fp.write(img_data)
                print(img_name,'success!!')

爬取结果
在这里插入图片描述
练习

https://pic.netbian.com/4kmeinv/

这里是引用

import re
import requests
import os

if __name__ == '__main__':
    if not os.path.exists('./meinv'):
        os.mkdir('./meinv')

    url = 'https://pic.netbian.com/4kmeinv/'

    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }

    page_text = requests.get(url=url,headers=headers).text
    ex = '<li><a href=".*?target=".*?<img src="(.*?)" alt=.*?</a></li>'
    ex_data = re.findall(ex,page_text,re.S)
    for src in ex_data:
        src = 'https://pic.netbian.com/'+src
        img_data = requests.get(url=src,headers=headers).content
        img_name = src.split('/')[-1]
        img_path = './meinv/' + img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, 'success!!')


结果
在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/100112.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • jmeter安装配置教程[通俗易懂]

    jmeter安装配置教程[通俗易懂]jmeter安装配置教程1、下载Jmeterhttp://jmeter.apache.org/2安装Jmeter之前  安装Jmeter之前需要先配置Java环境,我们下载的是jmeter4.0,所以java版本最好是选用java6以后的版本。  安装JDk1.8的步骤如下:  点击下载的JDK文件-dk-6u18-windows-i586.exe,点击下一步直至安装完成,然后开始配置…

    2022年6月6日
    56
  • JS、ActiveXObject、Scripting.FileSystemObject

    JS、ActiveXObject、Scripting.FileSystemObjectJavascript之文件操作(IE)一、功能实现核心:FileSystemObject对象要在javascript中实现文件操作功能,主要就是依靠FileSystemobject对象。&#1

    2022年7月1日
    29
  • beta分布介绍

    beta分布介绍相信大家学过统计学的都对正态分布二项分布均匀分布等等很熟悉了 但是却鲜少有人去介绍 beta 分布的 用一句话来说 beta 分布可以看作一个概率的概率分布 当你不知道一个东西的具体概率是多少时 它可以给出了所有概率出现的可能性大小 举一个简单的例子 熟悉棒球运动的都知道有一个指标就是棒球击球率 battingavera 就是用一个运动员击中的球数除以击球的总数 我们一般认为 0 26

    2025年12月9日
    2
  • awvs14安装教程_极品飞车14迅雷下载

    awvs14安装教程_极品飞车14迅雷下载Awvs14.1.210329187更新日期为2021年5月4日。首先卸载旧版awvs,然后重启电脑下载地址:Awvs14.1.210329187安装新版本运行AcunetixPremiumv14.2.210503151.exe。到如下填写登录的用户名和密码安装完后如下,此时没有激活激活安装完成后运行AcunetixPremiumActivationTool.exe进行激活,如下已经成功激活,然后改成中文版,如下,右上角点击保存既可以…

    2022年9月22日
    1
  • xss平台使用方法_简单介绍一种你在家使用过的工具

    xss平台使用方法_简单介绍一种你在家使用过的工具XSS常用语句及编码绕过XSS常用的测试语句有:<script>alert(1)</script><imgsrc=xonerror=alert(1)>&

    2022年8月2日
    8
  • validateRequest=false 可以禁用请求验证[通俗易懂]

    validateRequest=false 可以禁用请求验证[通俗易懂]参看了MVP的利用WebClient和WebRequest类获得网页源代码于是想自己动手写点,当然是参考其的办法啦。我这次下载了visualwebdeveloper2005express按照上面的文章编写了代码,我的btn函数如下       stringurlPage=””;       urlPage=UrlText.Text;

    2022年6月10日
    29

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号