Python爬虫—-网页下载器和urllib2模块及对应的实例

Python爬虫—-网页下载器和urllib2模块及对应的实例网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件未完。。。

大家好,又见面了,我是你们的朋友全栈君。

网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件

Python爬虫----网页下载器和urllib2模块及对应的实例

Python爬虫----网页下载器和urllib2模块及对应的实例

urllib2下载网页的三种方法

Python爬虫----网页下载器和urllib2模块及对应的实例

对应实例代码如下:

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第一种方法 --> 直接请求 '
response1 = urllib2.urlopen(url)  
      
#获取状态码,如果是200表示获取成功  
print response1.getcode()  
      
# 获取读取到的内容的长度 
print len(response1.read() )

第一种方法 –> 直接请求
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第二种方法:'
#创建Request对象
request= urllib2.Request(url)

#添加http的header
request.add_header('User-Agent' , 'Mozilla/5.0')

# 发送请求获取结果
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

第二种方法:
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '第三种方法:'

#创建cookie容器
cj = cookielib.CookieJar()

#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

# 给urllib2安装opener
urllib2.install_opener(opener)

# 使用带有cookie的urllib2访问网页
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()
第三种方法:
200
<CookieJar[]>
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
……

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140793.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月8日 下午6:40
下一篇 2022年5月8日 下午6:40


相关推荐

  • vi编辑器 常用命令汇总

    vi编辑器 常用命令汇总1 vi 编辑器的使用一个编辑器具备的功能 1 打开文件 新建文件 保存文件 2 光标移动 3 文本编辑 4 多行间 多列间 复制 粘贴 删除 5 查找和替换 1 1vi 编辑器的配置进入 etc vim 路径 cd etc vim 查看当前路径文件 ls 复制 vimrc 配置文件到家目录为 vimrc 文件 cp vimrc 查看复制后的文件 ls l vimrc 切换到家目录 cd 使用 gedit 来编辑 vimrc 文件 gedit vimrc 准备需要配置的内容 关闭兼容功能 se

    2026年3月18日
    3
  • matlab画圆的命令_matlab画矩形和matlab画圆「建议收藏」

    matlab画圆的命令_matlab画矩形和matlab画圆「建议收藏」今天在用MATLAB编程的时候,用到了已知圆心和半径,画圆的程序,上网搜了一下,主要有下面两种,在这里总结一下:(这里我都是放在函数中做的,想画多个圆的话可以加个for循环调用一下函数,或者直接用向量做都是可以的,在这里我不在多说)第一种:function[]=circle(x,y,r)rectangle(‘Position’,[x-r,y-r,2*r,2*r],’Curvature’,…

    2022年6月19日
    71
  • 海量数据存储技术(cpu制造瓶颈)

    对于海量数据的处理随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。水平切分数据库:可以降低单台机器的负载,同时最大限度的降低了宕机造成的损失;负载均衡策略:可以降低单台机器的访问负载,降…

    2022年4月14日
    54
  • kong简介_意大利kong

    kong简介_意大利kongKong简介Kong是一款基于OpenResty(Nginx+Lua模块)编写的高可用、易扩展的,由Mashape公司开源的APIGateway项目。Kong是基于NGINX和ApacheCassandra或PostgreSQL构建的,能提供易于使用的RESTfulAPI来操作和配置API管理系统,所以它可以水平扩展多个Kong服务器,通过前置的负载均衡配置把请求均匀地分发到各个Se…

    2022年4月19日
    67
  • mysql 隐式转换_js强制转换和隐式转换

    mysql 隐式转换_js强制转换和隐式转换导读作者徐晨亮,MySQLDBA,知数堂学员。热衷于数据库优化,自动化运维及数据库周边工具开发,对MySQL源码有一定的兴趣本文建议横屏观看,效果更佳一、问题描述roo…

    2022年10月11日
    6
  • java生成json格式数据 和 java遍历json格式数据

    java 生成json 格式的数据和json数据的遍历方法

    2022年2月24日
    42

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号