Python爬虫—-网页下载器和urllib2模块及对应的实例

Python爬虫—-网页下载器和urllib2模块及对应的实例网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件未完。。。

大家好,又见面了,我是你们的朋友全栈君。

网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件

Python爬虫----网页下载器和urllib2模块及对应的实例

Python爬虫----网页下载器和urllib2模块及对应的实例

urllib2下载网页的三种方法

Python爬虫----网页下载器和urllib2模块及对应的实例

对应实例代码如下:

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第一种方法 --> 直接请求 '
response1 = urllib2.urlopen(url)  
      
#获取状态码,如果是200表示获取成功  
print response1.getcode()  
      
# 获取读取到的内容的长度 
print len(response1.read() )

第一种方法 –> 直接请求
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第二种方法:'
#创建Request对象
request= urllib2.Request(url)

#添加http的header
request.add_header('User-Agent' , 'Mozilla/5.0')

# 发送请求获取结果
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

第二种方法:
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '第三种方法:'

#创建cookie容器
cj = cookielib.CookieJar()

#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

# 给urllib2安装opener
urllib2.install_opener(opener)

# 使用带有cookie的urllib2访问网页
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()
第三种方法:
200
<CookieJar[]>
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
……

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140793.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java 转发与重定向_Java 转发和重定向的区别

    java 转发与重定向_Java 转发和重定向的区别转发是服务器行为,重定向是客户端行为1.转发在服务器端完成的;重定向是在客户端完成的2.转发的速度快;重定向速度慢3.转发的是同一次请求;重定向是两次不同请求4.转发不会执行转发后的代码;重定向会执行重定向之后的代码5.转发地址栏没有变化;重定向地址栏有变化6.转发必须是在同一台服务器下完成;重定向可以在不同的服务器下完成在servlet中调用转发、重定向的语句如下:request.getRequ…

    2025年9月6日
    8
  • 全面详解c语言使用cJSON解析JSON字符[通俗易懂]

    全面详解c语言使用cJSON解析JSON字符[通俗易懂]为什么选择cJSON来解析JSON字符串?因为简洁又简单,而且效率又快,cJSON工程文件也非常简单,仅一个.c文件和一个.h文件!如果要自己写的话就是重造轮子了,况且效率上也不一定会比cJSON更好!且文件体积大小不到30k,源代码思路也非常清晰,也非常适合研究。点我下载cJSON当我们下载好cJSON只需要把.c和.h文件包含文件拷贝到我们工程目录下,并将头文件和实现文件…

    2022年6月30日
    81
  • 利用griddata进行插值

    利用griddata进行插值因为最近在做算法优化,所以对数据统一性有一定要求,在最近的研究中主要用一个简单的最近邻插值对数据集进行降尺度处理。主要运用到的函数时scipy里面的griddata第一步:导入相关库importxarrayasxrfromscipy.interpolateimportgriddata#插值函数importnumpyasnp第二步:给出插值到的经纬度信息(目标经纬度)mask_tmp=xr.open_dataset(‘G:/China/temperatu

    2022年5月9日
    48
  • mysql数据库旅游管理系统_JSP+MySQL基于ssm的旅游管理系统[通俗易懂]

    mysql数据库旅游管理系统_JSP+MySQL基于ssm的旅游管理系统[通俗易懂]本旅游管理系统主要包括系统用户管理模块、景点信息管理模块、变幻图管理、旅游线路管理、登录模块、和退出模块等多个模块。它帮助旅游管理实现了信息化、网络化,通过测试,实现了系统设计目标,相比传统的管理模式,本系统合理的利用了旅游管理数据资源,有效的减少了旅游管理的经济投入,大大提高了旅游管理的效率。SSM旅游网站前台部分界面SSM旅游网站后台部分界面系统功能结构图本系统主要包含了等系统用户管理、景点信…

    2022年6月9日
    29
  • 小程序 table_小程序下滑样式

    小程序 table_小程序下滑样式先看效果图wxml<viewclass=”mdui-m-t-2mudi-f-s-24″>1.养老保险</view><viewclass=”mdui-m-t-1mudi-indentmudi-f-s-20″>养老保险,全称社会基本养老保险,是国家和社会根据一定的法律和法规,为解决劳动者在达到国家规定的解除劳动义务的劳动…

    2025年11月24日
    3
  • 索引优缺点

    索引优缺点一、为什么要创建索引呢(优点)?创建索引可以大大提高系统的性能。第一,   通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。第二,   可以大大加快数据的检索速度,这也是创建索引的最主要的原因。第三,   可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。第四,   在使用分组和排序子句进行数据检索时,同样可以显著减少查询中分组和排序的时间。第五,   通过使用索引,…

    2022年5月26日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号