Python编写网络爬虫–牛刀小试

Python编写网络爬虫–牛刀小试本文参考网上的资料,编写简单的Python编写网络爬虫,做了网页内容的抓取,分析出链接的url并抓取。

大家好,又见面了,我是你们的朋友全栈君。

   本文参考网上的资料,编写简单的Python编写网络爬虫,做了网页内容的抓取,分析出链接的url并抓取。

      1.环境准备

          安装python3,PyCharm开发环境

      2.牛刀小试:          

# encoding:UTF-8
import urllib.request         #引入urllib工具

url = "http://www.baidu.com" #Url地址
data = urllib.request.urlopen(url).read()  # 使用urllib工具获取url的页面内容
data = data.decode('UTF-8')       #将格式转换为UTF-8格式
print(data)                 # 打印获取的页面信息

      输出结果:

<html><head>        <meta http-equiv="content-type" content="text/html;charset=utf-8">    <meta http-equiv="X-UA-Compatible" content="IE=Edge">	<meta content="always" name="referrer">    <meta name="theme-color" content="#2932e1">    <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />    <link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" />     <link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg">			<link rel="dns-prefetch" href="//s1.bdstatic.com"/>	<link rel="dns-prefetch" href="//t1.baidu.com"/>	<link rel="dns-prefetch" href="//t2.baidu.com"/>	<link rel="dns-prefetch" href="//t3.baidu.com"/>	<link rel="dns-prefetch" href="//t10.baidu.com"/>	<link rel="dns-prefetch" href="//t11.baidu.com"/>	<link rel="dns-prefetch" href="//t12.baidu.com"/>	<link rel="dns-prefetch" href="//b1.bdstatic.com"/>        <title>百度一下,你就知道</title>    <style id="css_index" index="index" type="text/css">html,body{height:100%}html{overflow-y:auto}body{font:12px arial;text-align:;background:#fff}body,p,form,ul,li{margin:0;padding:0;list-style:none}body,form,#fm{position:relative}td{text-align:left}img{border:0}a{color:#00c}  ........ ........ 由于内容过多,此处省略<script>if(navigator.cookieEnabled){	document.cookie="NOJS=;expires=Sat, 01 Jan 2000 00:00:00 GMT";}</script></body></html>

  

      上述结果与打开www.baidu.com,然后右键“查看源代码”获取得到的内容相同。

   3.抓取页面中的链接页面


      

import re
import urllib.request
import urllib

from collections import deque   #引入队列

queue = deque()        #定义队列,保存待处理的url
visited = set()        # 保存已抓取的url

url = 'http://www.csdn.net'  # 入口页面, 可以换成别的

queue.append(url)     # 添加到待处理的队列中
cnt = 0               # 已抓取数

while queue:
    url = queue.popleft()  # 获取队列队首元素
    visited.add(url)  # 添加到已经访问set中

    print('已经抓取: ' + str(cnt) + '   正在抓取 <---  ' + url)
    print('已经抓取的url:', visited)
    cnt += 1

    try:
        urlop = urllib.request.urlopen(url)      #抓取
    except:
        print('抓取: ' + url + '   异常 ')
        continue

    if 'html' not in urlop.getheader('Content-Type'):   # 判断是否是html的url
        continue

    # 避免程序异常中止, 用try...catch处理异常
    try:
        data = urlop.read().decode('utf-8')
    except:
        continue

    # 正则表达式提取页面中所有队列, 并判断是否已经访问过, 如果没有访问过,则加入待抓取队列
    linkre = re.compile('href="(.+?)"')
    for x in linkre.findall(data):
        if 'http' in x and x not in visited:
            queue.append(x)
            print('加入队列 --->  ' + x)


输出结果:


已经抓取: 0   正在抓取 <---  http://www.csdn.net已经抓取的url: {'http://www.csdn.net'}加入队列 --->  http://c.csdnimg.cn/www/css/csdn_common.css加入队列 --->  http://c.csdnimg.cn/public/favicon.ico加入队列 --->  https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn ...... 此处省略加入队列 --->  http://powerlinux.csdn 加入队列 --->  http://www.csdn.net/tag/jquery 加入队列 --->  http://www.csdn.net/company/icp.html加入队列 --->  http://www.csdn.net/company/pifu.html加入队列 --->  http://www.hd315.gov.cn/beian/view.asp?bianhao=010202001032100010加入队列 --->  http://c.csdnimg.cn/comm_ask/css/ask_float_block.css已经抓取: 1   正在抓取 <---  http://c.csdnimg.cn/www/css/csdn_common.css已经抓取的url: {'http://c.csdnimg.cn/www/css/csdn_common.css', 'http://www.csdn.net'}已经抓取: 2   正在抓取 <---  http://c.csdnimg.cn/public/favicon.ico已经抓取的url: {'http://c.csdnimg.cn/www/css/csdn_common.css', 'http://www.csdn.net', 'http://c.csdnimg.cn/public/favicon.ico'}已经抓取: 3   正在抓取 <---  https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn已经抓取的url: {'http://c.csdnimg.cn/www/css/csdn_common.css', 'https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn', 'http://www.csdn.net', 'http://c.csdnimg.cn/public/favicon.ico'}加入队列 --->  http://edu.csdn.net/yearPromotion/detail/3加入队列 --->  /account/fpwd?action=forgotpassword&service=http%3A%2F%2Fmy.csdn.net%2Fmy%2Fmycsdn加入队列 --->  https://api.weibo.com/oauth2/authorize?client_id=2601122390&response_type=code&redirect_uri=https%3A%2F%2Fpassport.csdn.net%2Faccount%2Flogin%3Foauth_provider%3DSinaWeiboProvider加入队列 --->  https://www.linkedin.com/uas/oauth2/authorization?response_type=code&client_id=75fvsy4v01jw1s&redirect_uri=https%3A%2F%2Fpassport.csdn.net%2Faccount%2Flogin%3Foauth_provider%3DLinkedInProvider&state=DCEEFWF45453sdffef424加入队列 --->  https://openapi.baidu.com/oauth/2.0/authorize?response_type=code&client_id=cePqkUpKCBrcnQtARTNPxxQG&redirect_uri=https%3A%2F%2Fpassport.csdn.net%2Faccount%2Flogin%3Foauth_provider%3DBaiduProvider加入队列 --->  https://graph.qq.com/oauth2.0/authorize?response_type=code&client_id=100270989&redirect_uri=https%3A%2F%2Fpassport.csdn.net%2Faccount%2Flogin%3Foauth_provider%3DQQProvider&state=test加入队列 --->  https://github.com/login/oauth/authorize?client_id=4bceac0b4d39cf045157&redirect_uri=https%3A%2F%2Fpassport.csdn.net%2Faccount%2Flogin%3Foauth_provider%3DGitHubProvider加入队列 --->  /account/mobileregister?action=mobileRegisterView&service=http%3A%2F%2Fmy.csdn.net%2Fmy%2Fmycsdn已经抓取: 4   正在抓取 <---  http://passport.csdn.net/account/mobileregister?action=mobileRegister已经抓取的url: {'http://c.csdnimg.cn/www/css/csdn_common.css', 'http://www.csdn.net', 'http://passport.csdn.net/account/mobileregister?action=mobileRegister', 'http://c.csdnimg.cn/public/favicon.ico', 'https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'}加入队列 --->  https://csdnimg.cn/public/common/toolbar/css/index.css加入队列 --->  /account/register?action=registerView&service=http://www.csdn.net已经抓取: 5   正在抓取 <---  https://passport.csdn.net/help/faq已经抓取的url: {'http://c.csdnimg.cn/www/css/csdn_common.css', 'http://www.csdn.net', 'http://passport.csdn.net/account/mobileregister?action=mobileRegister', 'http://c.csdnimg.cn/public/favicon.ico', 'https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn', 'https://passport.csdn.net/help/faq'}加入队列 --->  https://passport.csdn.net/account/changepassword加入队列 --->  https://passport.csdn.net/account/forgotpassword加入队列 --->  https://passport.csdn.net/account/forgotpassword已经抓取: 6   正在抓取 <---  http://news.csdn.net已经抓取的url: {'http://c.csdnimg.cn/www/css/csdn_common.css', 'http://www.csdn.net', 'http://passport.csdn.net/account/mobileregister?action=mobileRegister', 'http://c.csdnimg.cn/public/favicon.ico', 'http://news.csdn.net', 'https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn', 'https://passport.csdn.net/help/faq'}加入队列 --->  http://c.csdnimg.cn/public/common/toolbar/css/index.css


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149561.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • python中输入输出

    python中输入输出一个程序要进行交互,就需要进行输入,进行输入→处理→输出的过程。所以就需要用到输入和输出功能。同样的,在Python中,怎么实现输入和输出?Python3中的输入方式:Python提供了&#160

    2022年7月5日
    26
  • 从零开始学android编程之网格布局管理器(2-1)

    从零开始学android编程之网格布局管理器(2-1)网格布局管理器用GridLayout类来表示。在《从零开始学android编程之表格布局管理器》中提到的TableLayout一般产生的表格外形是标准的方框,而GridLayout类产生的网格可以是不标准的。1设置网格的行数和列数在《从零开始学android编程之线性布局管理器》中提到的activity_linear.xml文件中使用表格布局管理器GridLayout,代码如下Lin

    2022年5月7日
    55
  • eclipse更改maven的本地路径和外部仓库地址

    eclipse更改maven的本地路径和外部仓库地址

    2021年7月20日
    64
  • 少儿编程mta证书_少儿编程项目计划书

    少儿编程项目计划书未来30年是人工智能的伟大时代,学编程会让孩子的未来充满更多可能性。此项目是针对小学生,主要是以培养学习兴趣,接受最基本的编程概念,并能够通过学到的知识完成一些小的课题,激发和培养学生的编程思维。在学习的过程中,主要通过实体的编程玩具,学会构建自己的作品,比如学习编程语言,机器人等课程。本项目提供多维度的少儿编程培训服务,包括编辑机器人研发、在线编程教育培训、线下培训等。一、线下…

    2022年4月8日
    43
  • 应用程序报错0xc0000005_电脑提示0xc0000005

    应用程序报错0xc0000005_电脑提示0xc0000005在运行一个应用程序OWN.exe时一直报错,我应该如何处理?查看日志内容如下:错误应用程序名称:OWN.exe,版本:4.8.10.2658,时间戳:0x5c75280f错误模块名称:ntdll.dll,版本:6.1.7601.23915,时间戳:0x59b94a7d异常代码:0xc0000005错误偏移量:0x0005294f错误进程ID:0xca4错误应用程序启动时间…

    2022年10月3日
    4
  • 基于stm32四轮小车简易PID控制

    基于stm32四轮小车简易PID控制看前需知:作者本人使用的是四个普通的TT电机加编码器+增量式PID,适合PID初学者,但是需要对PID和增量式PID有一定的认知,本篇未有详细介绍,以代码应用为主,大佬勿喷。文章目录一、粗谈PID?二、使用的硬件设备三、软件设计四、关键代码1.TIM1定时器:2.TIM2编码器模式示例:3.电机初始化:4.TIM8PWM输出:5.PID:6.中断服务函数:总结*云中何曾落羽,踏遍三岛寻声*一、粗谈PID?PID在生活中很常见,举个例子。例如生活中,一个加热器需要对某个物体进行恒温控制,但是由于某

    2022年5月27日
    49

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号