Python爬虫实例(含代码)超详细教程

Python爬虫实例(含代码)超详细教程文章目录前言一 搜狗爬取周杰伦二 百度翻译三 豆瓣电影总结前言这篇文章会列举几个学 python 爬虫的简单例子 一 搜狗爬取周杰伦进入搜狗首页 在搜索引擎中输入周杰伦 进入周杰伦首页 我们得到了网址 https www sogou com web query 周杰伦 即拿到了 url https www sogou com web query 周杰伦 右键 gt 检查 进入下图界面刷新一下 点击网络 network 选择标头 可以看到请求 URL 请求方式 状态码等等



前言

这篇文章会列举几个学python爬虫的简单例子。


一、搜狗爬取周杰伦

进入搜狗首页,在搜索引擎中输入周杰伦,进入周杰伦首页。在这里插入图片描述
我们得到了网址”https://www.sogou.com/web?query=周杰伦”,即拿到了url=“https://www.sogou.com/web?query=周杰伦”。
右键 ->检查,进入下图界面
在这里插入图片描述
刷新一下,点击网络(network),选择标头,可以看到请求URL、请求方式、状态码等等信息,往下拉看到User-Agent,做为headers,避免反爬。








import requests url="https://www.sogou.com/web?query=周杰伦" headers={ 
      "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55" } #以字典的形式设置请求头,处理反爬 resp=requests.get(url,headers=headers) print(resp) #结果: 
      print(resp.text) #拿到页面源代码 resp.close() #关掉resp 

上述案例可以进一步改进,实现查询自由,代码如下:

import requests query=input("请输入一个你喜欢的明星:") url=f"https://www.sogou.com/web?query={query}" headers={ 
      "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55" } resp=requests.get(url,headers=headers) print(resp) print(resp.text) #拿到页面源代码 resp.close() #关闭resp 

二、百度翻译

代码如下

import requests url="https://fanyi.baidu.com/sug" s=input("请输入要翻译的英文单词") dat={ 
      "kw":s } resp=requests.post(url,data=dat)#发送post请求,发送的数据必须放在字典中,通过data参数进行传递 print(resp.json()) #将服务器返回的内容直接处理成json => dict resp.close() 

在这里插入图片描述

三、豆瓣电影

代码如下:

import requests url="http://movie.douban.com/j/chart/top_list" param={ 
      "type":"24", "interval_id":"100:90", "action":"", "start":0, "limit":20, } #右键->检查,network,点击Payload即可将参数复制到此处的字典 headers={ 
      "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55" } resp=requests.get(url=url,params=param,headers=headers) print(resp.json()) resp.close() #关掉resp 

在这里插入图片描述


总结

这里对文章进行总结:以上就是今天要讲的内容,本文介绍了简单的爬虫案例,希望对大家有所帮助哟!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/204242.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午8:40
下一篇 2026年3月19日 下午8:40


相关推荐

  • 用户态和内核态:用户态线程和内核态线程有什么区别?[通俗易懂]

    用户态和内核态:用户态线程和内核态线程有什么区别?[通俗易懂]转载文章来源于拉钩教育重学操作系统林䭽用户态和内核态:用户态线程和内核态线程有什么区别?什么是用户态和内核态Kernel运行在超级权限模式(SupervisorMode)下,所以拥有很高的权限。按照权限管理的原则,多数应用程序应该运行在最小权限下。因此,很多操作系统,将内存分成了两个区域:内核空间(KernalSpace),这个空间只有内核程序可以访问;用户空间(UserSpace),这部分内存专门给应用程序使用。用户态和内核态用户空间中的代码被限制了只能使用一

    2025年12月9日
    5
  • &0xFF是怎么个意思[通俗易懂]

    &0xFF是怎么个意思[通俗易懂]今天看了下同事从网上拷贝的base64加密的代码,看到了这样如下的代码publicstaticStringencode(byte[]data){StringBuildersb=newStringBuilder();intlen=data.length;inti=0;intb1,b2,b3;while(i

    2022年6月15日
    41
  • 禁止Ubuntu开机进入guest session

    禁止Ubuntu开机进入guest session禁止Ubuntu开机进入guest session

    2022年4月23日
    60
  • docker pycharm 连接_pycharm远程连接docker开发[通俗易懂]

    docker pycharm 连接_pycharm远程连接docker开发[通俗易懂]1配置docker服务端(c/s架构)允许远程客户端连接-1vim/lib/systemd/system/docker.service…#ExecStart=/usr/bin/dockerd-Hfd://–containerd=/run/containerd/containerd.sockExecStart=/usr/bin/dockerd-Htcp://0.0.0.0:2…

    2022年8月27日
    7
  • http和socker的区别

    http和socker的区别0x01 概述 HTTP 协议 超文本传输协议 对应于应用层 用于如何封装数据 TCP UDP 协议 传输控制协议 对应于传输层 主要解决数据在网络中的传输 IP 协议 对应于网络层 同样解决数据在网络中的传输 传输数据的时候只使用 TCP IP 协议 传输层 如果没有应用层来识别数据内容 传输后的协议都是无用的 0x02TCP 连接手机能够使用联网功能是因为手机底层实现了 TCP IP 协议 可以

    2026年3月20日
    1
  • group by 和 order by 的区别 + 理解过程

    group by 和 order by 的区别 + 理解过程orderby和groupby的区别order by 和 group by 的区别:1,order by 从英文里理解就是行的排序方式,默认的为升序。 order by 后面必须列出排序的字段名,可以是多个字段名。2,group by 从英文里理解就是分组。必须有“聚合函数”来配合才能使用,使用时至少需要一个分组标志字段。注意:聚合函数是—sum()、count()、…

    2022年5月9日
    45

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号