Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!Python爬虫之URL管理器:Python爬虫:URL管理器实现方式:Python爬虫之网页下载器:urllib2实现网页下载器的三种方法:具体代码:              Python网页解析器:…

大家好,又见面了,我是你们的朋友全栈君。

Python爬虫之URL管理器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器实现方式:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫之网页下载器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

urllib2实现网页下载器的三种方法:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

具体代码:

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!


Python网页解析器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

      Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

例子:

import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        #r.encoding = 'utf-8'
        return r.text
    except:
        return ""
def getContent(url):
    html = getHTMLText(url)
    # print(html)
    soup = BeautifulSoup(html, "html.parser")
    title = soup.select("div.hd > h1")
    print(title[0].get_text())
    time = soup.select("div.a_Info > span.a_time")
    print(time[0].string)
    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")
    print(author[0].get_text())
    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")
    for para in paras:
        if len(para) > 0:
            print(para.get_text())
            print()
    #写入文件
    fo = open("text.txt", "w+")
    fo.writelines(title[0].get_text() + "\n")
    fo.writelines(time[0].get_text() + "\n")
    for para in paras:
        if len(para) > 0:
            fo.writelines(para.get_text() + "\n\n")
    fo.writelines(author[0].get_text() + '\n')
    fo.close()
    #将爬取到的文章用字典格式来存
    article = {
        'Title' : title[0].get_text(),
        'Time' : time[0].get_text(),
        'Paragraph' : paras,
        'Author' : author[0].get_text()
    }
    print(article)
def main():
    url = "http://news.qq.com/a/20170504/012032.htm"
    getContent(url);
main()

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134735.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • goland 2021.3激活 3月最新注册码

    goland 2021.3激活 3月最新注册码,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月14日
    42
  • matlab如何导入txt数据画图形_matlab画复杂函数图像

    matlab如何导入txt数据画图形_matlab画复杂函数图像MATLAB读取txt文件数据绘制图像现有data.txt文件存储由数据采集卡读取到的6000000个数据。下面记录最基础的用MATLAB读取txt文件数据并绘制图像的代码。%关闭所有的Figure窗口closeall;%清除工作空间的所有变量,函数,和MEX文件clearall;%加载数据文件,并命名为AA=load(‘data.txt’);%矩阵A的规模,[行,列][m,n]=size(A);%绘制txt文件第一列的数据figure(1);plo

    2022年9月6日
    3
  • IntelliJ IDEA 报错:找不到包或者找不到符号

    IntelliJ IDEA 报错:找不到包或者找不到符号最近在使用IDEA的时候,突然出现过找不到包或者找不到符号的情况,在确定了自己引用存在的情况下,可以尝试以下几种方式来解决,以下是在开发过程中碰过问题同样解决过的几种办法,在此记录下也分享给大家,希望对各位有帮助。1.利用Maven-Reimport2.InvalidateandRestart3.编码统一4.重新编译点开ProjectStructu…

    2022年6月29日
    53
  • WireShark抓包分析

    WireShark抓包分析简述:本文介绍了抓包数据含义,有TCP报文、Http报文、DNS报文。如有错误,欢迎指正。1、TCP报文TCP:(TCP是面向连接的通信协议,通过三次握手建立连接,通讯完成时要拆除连接,由于TCP是面向连接的所以只能用于点对点的通讯)源IP地址:发送包的IP地址;目的IP地址:接收包的IP地址;源端口:源系统上的连接的端口;目的端口:目的系统上的连接的端口。T

    2022年6月12日
    29
  • matlab wavedec2 函数,python小波变换 wavedec2函数 各个返回值详解

    matlab wavedec2 函数,python小波变换 wavedec2函数 各个返回值详解python小波变换wavedec2函数各个返回值详解python小波变换wavedec2函数各个返回值详解网上找了好多文章都没有提到这个东西,没有说明wavedec2函数各个返回值究竟是什么意思我们先看看wavedec2函数的大概形式,pywt.wavedec2(data,wavelet,mode=’symmetric’,level=None,axes=(-2,-1))…

    2022年6月29日
    40
  • 【伪装位置神器】神行者AnyLocation 1.3.0001可用于微信,陌陌

    【伪装位置神器】神行者AnyLocation 1.3.0001可用于微信,陌陌软件名称:神行者(激活成功教程)软件版本:v1.3.0001授权类别:免费测试机型:大可乐手机下载链接:http://pan.baidu.com/s/1qWwSMde密码:m7mq应用简介:神行者Any

    2022年8月2日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号