使用Python爬取网页内容并保存

使用Python爬取网页内容并保存使用 Python 爬取网页内容并保存使用 requests 方法爬取使用 requests 方法爬取话不多说直接上代码片 importurllib requestimpor https www bilibili com 浏览器 User Agent 的详细信息 可采用下面的进行爬虫伪装 在 OneNote 计算机杂 Pythonlihead User Agent Mozilla 5 0 compatible MSIE9 0 Windows

使用urllib方法、requests爬取

使用urllib方法、requests爬取特别简单,有时候有些网站会有反爬技术,就需要伪装浏览器去访问,然后再爬取。

import urllib.request import requests url="https://www.bilibili.com/" #有些网站会现在,但可伪装浏览器爬取 浏览器User-Agent的详细信息(可采用下面的进行爬虫伪装) #浏览器头信息代理可以直接搜Http Header之User-Agent,以下是谷歌浏览器的 headers={ 
    "User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0" } #使用伪装浏览器的urllib方法 def use_urllib_Liu(url): req = urllib.request.Request(url,headers=headers) response = urllib.request.urlopen(req) data = response.read().decode() print(data) #使用urllib方法 def use_urllib(url): response = urllib.request.urlopen(url) data = response.read().decode() print(data) #使用#requests方法 def use_requests(url): #实践发现,request不用headers也可以爬到设了防爬限制的网站 #response = requests.get(url) # 使用伪装浏览器的urllib方法 response = requests.get(url,headers=headers) data = response.text print(data) if __name__ == '__main__': #use_urllib_Liu(url) #use_urllib(url) use_requests(url) 

使用requests方法爬取并保存

话不多说直接上 代码片.

import urllib.request import requests url="https://www.bilibili.com/" #有些网站会现在,但可伪装浏览器爬取 浏览器User-Agent的详细信息(可采用下面的进行爬虫伪装) #浏览器头信息代理可以直接搜Http Header之User-Agent,以下是谷歌浏览器的 headers={ 
    "User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0" } #使用requests方法 def use_requests(url,headers): #实践发现,request不用headers也可以爬到设了防爬限制的网站 #response = requests.get(url) # 使用伪装浏览器的urllib方法 response = requests.get(url,headers=headers) data = response.text #print(data) file_path="E:/Python/bilibili/bilibili.html" #将爬到的内容保存到本地 with open(file_path,"w",encoding="utf-8") as f: f.write(data) if __name__ == '__main__': use_requests(url,headers) 
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214879.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午3:13
下一篇 2026年3月18日 下午3:14


相关推荐

  • 盘点几个支持一键部署OpenClaw的云服务器商家

    盘点几个支持一键部署OpenClaw的云服务器商家

    2026年3月13日
    2
  • Java单例模式(Singleton)以及实现「建议收藏」

    Java单例模式(Singleton)以及实现「建议收藏」一.什么是单例模式因程序需要,有时我们只需要某个类同时保留一个对象,不希望有更多对象,此时,我们则应考虑单例模式的设计。二.单例模式的特点单例模式只能有一个实例。单例类必须创建自己的唯一实例。单例类必须向其他对象提供这一实例。三.单例模式VS静态类在知道了什么是单例模式后,我想你一定会想到静态类,“既然只使用一个对象,为何不干脆使用静态类?”,这里我会将单例模式和静态类进行一个比较。单例可以继承和被继承,方法可以被override,而静态方法不可以。静态方

    2022年7月7日
    27
  • Python中线程同步与线程锁「建议收藏」

    Python中线程同步与线程锁「建议收藏」文章目录Python中线程同步与线程锁线程同步threading.Event对象threading.Timer定时器,延迟执行threading.Lock锁可重入锁RLockCondition条件锁,等待通知therading.Semaphore信号量threading.BoundedSemaphore有界信号量Python中线程同步与线程锁线程同步概念*线程同步,线程间协同,通过某种技…

    2022年6月21日
    32
  • DOMContentLoaded和window.onload

    DOMContentLoaded和window.onload

    2022年1月15日
    57
  • 终于,我感受到了IDEA的强大[通俗易懂]

    Java开发者千千万,开发者用的开发工具目前主流却只有2种:eclipse和IDEA,我入行以来一直用的eclipse,听过IDEA很好很强大,但是也只是处于听说的阶段,基本没用过,自然没怎么体会过。

    2022年2月16日
    47
  • fpga以太网通信例程_verilog参数传递

    fpga以太网通信例程_verilog参数传递1本实验将实现FPGA芯片和PC之间进行千兆以太网数据通信,通信协议采用Ethernet UDP通信协议。FPGA通过GMII总线和开发板上的GigabitPHY芯片通信,GigabitPHY芯片把数据通过网线发给PC。在上次的实验中,我们详细讲解了网络传输的过程中如何对数据进行传输,以及数据传输的格式,这次实验中,我们详细讲解如何使用Verilog语言

    2025年8月6日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号