Python爬虫 —— requests
Python爬虫(三)—— 爬取网站图片
大家可以关注知乎或微信公众号的share16,我们也会同步更新此文章。
一、思路
二、源代码分析
免费听了一节公开课后,我学到一些知识,现在分享给大家:
- 网站输入要搜索的关键字,右击选择‘显示页面源文件’,如下操作;
- 爬取网站数据时,我们要用 r.text 还是 r.json() ?
我们需查看要爬取网站的源代码,若开头是‘DOCTYPE html’,用 r.text ;若开头是{key1:value1,···},用 r.json() ;根据实际情况,我们此时要用到的是r.json()。
r.json():返回的是字典类型,可以通过键值获取相应的值;
r.text:返回的类型为字符串,无法通过键值获取相应的值; - 图片数据储存在 data键对应的值 中,以列表形式显示,且列表中每个元素(储存着图片信息)都是一个字典;
- 每张图片的链接储存在 thumbURL键对应的值内;名称储存在 fromPageTitleEnc键对应的值内;
- 下载图片
# 图片以二进制格式储存 with open('文件名', 'wb') as f: r.write('要插入的文件名') 三、代码
源代码:点此下载
要注意的地方:
- getImage函数中,要根据实际情况修改file_addr;
- main函数中,kv中开始只定义了User-Agent,提示:forbid spider access;后续,增加了Accept和Accept-Language;
四、运行结果

谢谢大家?
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214677.html原文链接:https://javaforall.net
