<span>Urllib库的基本用法</span>

Urllib库的基本用法

全栈程序员-站长 • 2021年11月19日下午3:00 • 未分类 • 阅读 45

1、什么是url？

统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。

基本URL包含模式（或称协议）、服务器名称（或IP地址）、路径和文件名，如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下：协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

2、什么是Urllib库？

Urllib是python内置的处理URL的库，
包括以下模块
urllib.request 打开、读URLs
urllib.error 包含了request出现的异常
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块（spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt，在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分）

3、实例

（1）读一个网页

import urllib.request
with urllib.request.urlopen('http://www.baidu.com') as f:
    print(f.read(20).decode('utf8'))

　　其中，urlopen返回的是一个字节类型的对象，这是由于urlopen不知道从服务器上读的数据该如何解码，需要我们自己对字符串解码。

如上，可以打开百度的界面，

<span>Urllib库的基本用法</span>

可以看到，此页面用utf-8编码。

当然，你也可以把代码改为：

import urllib.request
req = urllib.request.Request(url = 'http://www.baidu.com')
with urllib.request.urlopen(req) as f:
    print(f.read(20).decode('utf8'))

　　访问请求放置在Request类中，该类包含一些属性，可以传递数据等，此处不过于深究。

（2）登陆动作（使用基础的HTTP身份验证）

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/119475.html原文链接：https://javaforall.net

Urllib库的基本用法

关于作者

全栈程序员-站长

发表回复

Urllib库的基本用法

关于作者

全栈程序员-站长

相关推荐

手把手教你本地部署DeepSeek，零基础也能轻松搞定

典型的电容有_电容的容量

多线程(一)：创建线程和线程的常用方法

Matlab中axis函数用法总结

@RestController的作用「建议收藏」

python考试题目及答案-Python期末考试试题题库.docx

发表回复