Python爬虫(三)—— 爬取网站图片

Python爬虫(三)—— 爬取网站图片Python 爬虫 三 爬取网站图片

Python爬虫(三)—— 爬取网站图片

大家可以关注知乎或微信公众号的share16,我们也会同步更新此文章。

一、思路

二、源代码分析

   免费听了一节公开课后,我学到一些知识,现在分享给大家:

  1. 网站输入要搜索的关键字,右击选择‘显示页面源文件’,如下操作;
  2. 爬取网站数据时,我们要用 r.text 还是 r.json() ?
    我们需查看要爬取网站的源代码,若开头是‘DOCTYPE html’,用 r.text ;若开头是{key1:value1,···},用 r.json() ;根据实际情况,我们此时要用到的是r.json()。
    r.json():返回的是字典类型,可以通过键值获取相应的值;
    r.text:返回的类型为字符串,无法通过键值获取相应的值;






  3. 图片数据储存在 data键对应的值 中,以列表形式显示,且列表中每个元素(储存着图片信息)都是一个字典;
  4. 每张图片的链接储存在 thumbURL键对应的值内;名称储存在 fromPageTitleEnc键对应的值内;
  5. 下载图片
# 图片以二进制格式储存 with open('文件名', 'wb') as f: r.write('要插入的文件名') 

三、代码

   源代码:点此下载

   要注意的地方:

  1. getImage函数中,要根据实际情况修改file_addr;
  2. main函数中,kv中开始只定义了User-Agent,提示:forbid spider access;后续,增加了Accept和Accept-Language;



四、运行结果

在这里插入图片描述

谢谢大家?


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214677.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午3:42
下一篇 2026年3月18日 下午3:42


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号