Python爬虫—-网页下载器和urllib2模块及对应的实例

Python爬虫—-网页下载器和urllib2模块及对应的实例网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件未完。。。

大家好,又见面了,我是你们的朋友全栈君。

网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件

Python爬虫----网页下载器和urllib2模块及对应的实例

Python爬虫----网页下载器和urllib2模块及对应的实例

urllib2下载网页的三种方法

Python爬虫----网页下载器和urllib2模块及对应的实例

对应实例代码如下:

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第一种方法 --> 直接请求 '
response1 = urllib2.urlopen(url)  
      
#获取状态码,如果是200表示获取成功  
print response1.getcode()  
      
# 获取读取到的内容的长度 
print len(response1.read() )

第一种方法 –> 直接请求
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第二种方法:'
#创建Request对象
request= urllib2.Request(url)

#添加http的header
request.add_header('User-Agent' , 'Mozilla/5.0')

# 发送请求获取结果
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

第二种方法:
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '第三种方法:'

#创建cookie容器
cj = cookielib.CookieJar()

#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

# 给urllib2安装opener
urllib2.install_opener(opener)

# 使用带有cookie的urllib2访问网页
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()
第三种方法:
200
<CookieJar[]>
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
……

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140793.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 四个c语言小游戏

    四个c语言小游戏C语言小游戏0、前言1、普普通通的五子棋2、好难操作的贪吃蛇3、简单到炸的自制迷宫4、不忍直视的双人飞机对战0、前言1、我使用的是编译软件是vc6.02、如果代码无法运行,你可以尝试吧文件xxx.c改为xxx.cpp3、四个小游戏我都运行过,确保是可以运行的。虽然可玩性、操作性。。。1、普普通通的五子棋这是四个游戏中,个人感觉最好的一个了。#include<stdio.h>#include<windows.h>#include<time.h>#i

    2022年5月19日
    382
  • 麒麟系统安装打印机共享_银河麒麟 惠普打印机驱动怎么安装

    麒麟系统安装打印机共享_银河麒麟 惠普打印机驱动怎么安装银河麒麟惠普打印机驱动怎么安装相信很多小伙伴在日常办公中都会用到打印机,如果我们想要在电脑中安装打印驱动该怎么做呢?方法很简单,下面小编就来为大家介绍具体如下:1.首先,在电脑中下载打印机相对应的驱动程序,在打印机对应品牌的官网中都能下载。2.接着,打开桌面左下角的开始菜单,在弹出菜单中找到并点击“设备和打印机”。3.打开下图所示窗口后,右键任意空白处,在弹出菜单中点击“添加打印机”。4….

    2022年5月20日
    497
  • vue beforeEach 跳转问题

    vue beforeEach 跳转问题我们直接在beforeEach函数里面判断用户是否登录然后跳转页面的时候会陷入一个死循环解决办法就是多加一层if判断首先判断用户是否有token或者时候登录然后再判断to参数里的path路径if(Lkcommon.getToken()){next()}else{if(to.path!==”/login”){next({path:”/lo…

    2022年6月29日
    57
  • 复现awvs——HTTP.SYS远程代码执行漏洞(MS15-034)

    复现awvs——HTTP.SYS远程代码执行漏洞(MS15-034)一、MS15-034漏洞介绍HTTP协议堆栈(HTTP.sys)中存在一个远程代码执行漏洞,当HTTP.sys错误地解析特制HTTP请求时,会导致该漏洞。成功利用此漏洞的攻击者可以在系统帐户的上下文中执行任意代码。造成危害如下:(1)远程读取IIS服务器的数据。(2)造成服务器系统蓝屏崩溃(最可怕)。二、影响范围对于Windows7、WindowsServer2008R2、Windows8、WindowsServer2012、Windows8.1和

    2022年7月18日
    20
  • wireshark分析无线wifi包

    wireshark分析无线wifi包1、找到station或者ap的mac地址,使用过滤命令找到两者的网络包交互mac地址过滤:wlancontains00:11:22:33:44:55报文类型过滤:wlan.fc.type_subtype==0x0输入wlan.会列出很多可用无线过滤命令参考:https://blog.csdn.net/neal_hddnwpu/article/details/82586235…

    2022年7月21日
    26
  • 【深度讲解】手把手教你python制作萝莉音智能对话语音机器人,附全部源码!速速学起来!!

    文章目录演示先看看前言一定要看第一步实现普通智能对话第二步文字转萝莉音第三步播放音频第四步综合上述代码完整代码下载地址演示先看看前言一定要看为了让大家真正学会,我用分模块步骤的方式讲解,这样也能让大家不仅在娱乐的同时,还能学到知识。东西有点多,你大可不必着急复制粘贴,你只需要看看我的讲解即可,最下面可以直接下载完整的源码文件。第一步实现普通智能对话代码如下:#coding=gbk”””作者:川川时间:2021/8/21″””importrequestsprint(‘请输入你想说的

    2022年4月17日
    63

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号