使用Python爬取网页内容并保存

全栈程序员-站长 • 2026年3月18日下午3:14 • 未分类 • 阅读 2

使用Python爬取网页内容并保存使用 Python 爬取网页内容并保存使用 requests 方法爬取使用 requests 方法爬取话不多说直接上代码片 importurllib requestimpor https www bilibili com 浏览器 User Agent 的详细信息可采用下面的进行爬虫伪装在 OneNote 计算机杂 Pythonlihead User Agent Mozilla 5 0 compatible MSIE9 0 Windows

使用Python爬取网页内容并保存

- 使用urllib方法、requests爬取
- 使用requests方法爬取并保存

使用urllib方法、requests爬取

使用urllib方法、requests爬取特别简单，有时候有些网站会有反爬技术，就需要伪装浏览器去访问，然后再爬取。

import urllib.request import requests url="https://www.bilibili.com/" #有些网站会现在，但可伪装浏览器爬取 浏览器User-Agent的详细信息(可采用下面的进行爬虫伪装) #浏览器头信息代理可以直接搜Http Header之User-Agent，以下是谷歌浏览器的 headers={ 
    "User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0" } #使用伪装浏览器的urllib方法 def use_urllib_Liu(url): req = urllib.request.Request(url,headers=headers) response = urllib.request.urlopen(req) data = response.read().decode() print(data) #使用urllib方法 def use_urllib(url): response = urllib.request.urlopen(url) data = response.read().decode() print(data) #使用#requests方法 def use_requests(url): #实践发现，request不用headers也可以爬到设了防爬限制的网站 #response = requests.get(url) # 使用伪装浏览器的urllib方法 response = requests.get(url,headers=headers) data = response.text print(data) if __name__ == '__main__': #use_urllib_Liu(url) #use_urllib(url) use_requests(url)

使用requests方法爬取并保存

话不多说直接上 代码片.

import urllib.request import requests url="https://www.bilibili.com/" #有些网站会现在，但可伪装浏览器爬取 浏览器User-Agent的详细信息(可采用下面的进行爬虫伪装) #浏览器头信息代理可以直接搜Http Header之User-Agent，以下是谷歌浏览器的 headers={ 
    "User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0" } #使用requests方法 def use_requests(url,headers): #实践发现，request不用headers也可以爬到设了防爬限制的网站 #response = requests.get(url) # 使用伪装浏览器的urllib方法 response = requests.get(url,headers=headers) data = response.text #print(data) file_path="E:/Python/bilibili/bilibili.html" #将爬到的内容保存到本地 with open(file_path,"w",encoding="utf-8") as f: f.write(data) if __name__ == '__main__': use_requests(url,headers)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/214879.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

ssdt与shadowssdt区别

上一篇 2026年3月18日下午3:13

java枚举类型enum用法_Java枚举类型——Enum的简单用法

下一篇 2026年3月18日下午3:14

openclaw

盘点几个支持一键部署OpenClaw的云服务器商家

盘点几个支持一键部署OpenClaw的云服务器商家

全栈程序员-站长
2026年3月13日
2
Java单例模式(Singleton)以及实现「建议收藏」

Java单例模式(Singleton)以及实现「建议收藏」一.什么是单例模式因程序需要，有时我们只需要某个类同时保留一个对象，不希望有更多对象，此时，我们则应考虑单例模式的设计。二.单例模式的特点单例模式只能有一个实例。单例类必须创建自己的唯一实例。单例类必须向其他对象提供这一实例。三.单例模式VS静态类在知道了什么是单例模式后，我想你一定会想到静态类，“既然只使用一个对象，为何不干脆使用静态类？”，这里我会将单例模式和静态类进行一个比较。单例可以继承和被继承，方法可以被override，而静态方法不可以。静态方

全栈程序员-站长
2022年7月7日
27
Python中线程同步与线程锁「建议收藏」

Python中线程同步与线程锁「建议收藏」文章目录Python中线程同步与线程锁线程同步threading.Event对象threading.Timer定时器，延迟执行threading.Lock锁可重入锁RLockCondition条件锁，等待通知therading.Semaphore信号量threading.BoundedSemaphore有界信号量Python中线程同步与线程锁线程同步概念*线程同步，线程间协同，通过某种技…

全栈程序员-站长
2022年6月21日
32
DOMContentLoaded和window.onload

DOMContentLoaded和window.onload

全栈程序员-站长
2022年1月15日
57
idea

终于，我感受到了IDEA的强大[通俗易懂]

Java开发者千千万，开发者用的开发工具目前主流却只有2种：eclipse和IDEA，我入行以来一直用的eclipse，听过IDEA很好很强大，但是也只是处于听说的阶段，基本没用过，自然没怎么体会过。

全栈程序员-站长
2022年2月16日
47
fpga以太网通信例程_verilog参数传递

fpga以太网通信例程_verilog参数传递1本实验将实现FPGA芯片和PC之间进行千兆以太网数据通信,通信协议采用Ethernet UDP通信协议。FPGA通过GMII总线和开发板上的GigabitPHY芯片通信,GigabitPHY芯片把数据通过网线发给PC。在上次的实验中，我们详细讲解了网络传输的过程中如何对数据进行传输，以及数据传输的格式，这次实验中，我们详细讲解如何使用Verilog语言

全栈程序员-站长
2025年8月6日
6

发表回复

关注全栈程序员社区公众号