Python爬虫—-网页下载器和urllib2模块及对应的实例

Python爬虫—-网页下载器和urllib2模块及对应的实例网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件未完。。。

大家好,又见面了,我是你们的朋友全栈君。

网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件

Python爬虫----网页下载器和urllib2模块及对应的实例

Python爬虫----网页下载器和urllib2模块及对应的实例

urllib2下载网页的三种方法

Python爬虫----网页下载器和urllib2模块及对应的实例

对应实例代码如下:

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第一种方法 --> 直接请求 '
response1 = urllib2.urlopen(url)  
      
#获取状态码,如果是200表示获取成功  
print response1.getcode()  
      
# 获取读取到的内容的长度 
print len(response1.read() )

第一种方法 –> 直接请求
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第二种方法:'
#创建Request对象
request= urllib2.Request(url)

#添加http的header
request.add_header('User-Agent' , 'Mozilla/5.0')

# 发送请求获取结果
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

第二种方法:
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '第三种方法:'

#创建cookie容器
cj = cookielib.CookieJar()

#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

# 给urllib2安装opener
urllib2.install_opener(opener)

# 使用带有cookie的urllib2访问网页
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()
第三种方法:
200
<CookieJar[]>
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
……

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140793.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 霍尼韦尔与浙江石化扩大合作,助力中国最大石化项目进一步建设[通俗易懂]

    霍尼韦尔与浙江石化扩大合作,助力中国最大石化项目进一步建设[通俗易懂]霍尼韦尔在第二届中国国际进口博览会上宣布,浙江石油化工有限公司(以下称“浙江石化”)将在其位于浙江省舟山的炼化一体化二期项目采用霍尼韦尔一系列先进技术,包括工艺技术、催化剂、关键设备和控制自动化技术。舟山炼化一体化项目是中国国家经济最新发展规划中的数个大型石化产业基地之一。合作内容包括:霍尼韦尔UOPMD/ECMD塔盘,用于两套240万吨芳烃装置中的精馏和汽提环节,为客户提供出色的性能和经济效…

    2022年10月16日
    0
  • 十大排序——最全最详细,一文让你彻底搞懂

    十大排序——最全最详细,一文让你彻底搞懂最全最详细,一文带你了解十大排序Sort写在前面因为GitHub的主文档太长,不容易维护,所以建立子文档以辅助。本篇内容是主文档中的排序部分的扩展。注:本篇内容最早发布于GitHub中,如果你觉得我写得还行,记得给我Star或是Fork~~献给我的家人作者Three领英知乎力扣CSDN????????????不积跬步,无以至千里;不积小流,无以成江海。????Top代表返回顶部????代表到文档末尾如果你觉得我

    2022年7月24日
    12
  • 运维人员常用到的 11 款服务器监控工具

    运维人员常用到的 11 款服务器监控工具点击上方“民工哥技术之路”,选择“设为星标”回复“1024”获取独家整理的学习资料!服务器监控工具功能相当强大,无论何时何地,我们都可以了解到服务器的功能以及性能。服务器监控工具的使用,…

    2022年5月20日
    41
  • struts2拦截器不起作用「建议收藏」

    struts2拦截器不起作用「建议收藏」为什么拦截器不起作用

    2022年10月6日
    1
  • 虚拟化实践:云桌面安装

    虚拟化实践:云桌面安装

    2021年12月7日
    69
  • cv2.read 与cv2.imread的区别_vc泡腾片不能和什么一起吃

    cv2.read 与cv2.imread的区别_vc泡腾片不能和什么一起吃1、cv2.imread()接口读图像,读进来直接是BGR格式数据格式在0~255需要特别注意的是图片读出来的格式是BGR,不是我们最常见的RGB格式,颜色肯定有区别。2、cv2.cvtColor(p1,p2)是颜色空间转换函数,p1是需要转换的图片,p2是转换成何种格式。cv2.COLOR_BGR2RGB将BGR格式转换成RGB格式cv2.COLOR_BGR2GRAY将…

    2022年10月15日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号