Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!Python爬虫之URL管理器:Python爬虫:URL管理器实现方式:Python爬虫之网页下载器:urllib2实现网页下载器的三种方法:具体代码:              Python网页解析器:…

大家好,又见面了,我是你们的朋友全栈君。

Python爬虫之URL管理器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器实现方式:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫之网页下载器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

urllib2实现网页下载器的三种方法:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

具体代码:

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!


Python网页解析器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

      Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

例子:

import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        #r.encoding = 'utf-8'
        return r.text
    except:
        return ""
def getContent(url):
    html = getHTMLText(url)
    # print(html)
    soup = BeautifulSoup(html, "html.parser")
    title = soup.select("div.hd > h1")
    print(title[0].get_text())
    time = soup.select("div.a_Info > span.a_time")
    print(time[0].string)
    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")
    print(author[0].get_text())
    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")
    for para in paras:
        if len(para) > 0:
            print(para.get_text())
            print()
    #写入文件
    fo = open("text.txt", "w+")
    fo.writelines(title[0].get_text() + "\n")
    fo.writelines(time[0].get_text() + "\n")
    for para in paras:
        if len(para) > 0:
            fo.writelines(para.get_text() + "\n\n")
    fo.writelines(author[0].get_text() + '\n')
    fo.close()
    #将爬取到的文章用字典格式来存
    article = {
        'Title' : title[0].get_text(),
        'Time' : time[0].get_text(),
        'Paragraph' : paras,
        'Author' : author[0].get_text()
    }
    print(article)
def main():
    url = "http://news.qq.com/a/20170504/012032.htm"
    getContent(url);
main()

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134735.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • javascript返回上一步,后退的代码

    javascript返回上一步,后退的代码第一种方法:<ahref=”javascript:history.go(-1)”>返回上一步</a><ahref=”javascript:”οnclick=”history.back();”>返回上一页</a>第二种方法:<scriptlanguage=”javascript”>window.history.back(-1);</script>…

    2022年7月25日
    6
  • mysql 视图 索引_mysql不走索引的情况

    mysql 视图 索引_mysql不走索引的情况mysql 索引和事务、视图

    2022年4月20日
    255
  • 推荐算法之NMF算法

    推荐算法之NMF算法在例如Netflix或MovieLens这样的推荐系统中,有用户和电影两个集合。给出每个用户对部分电影的打分,希望预测该用户对其他没看过电影的打分值,这样可以根据打分值为其做出推荐。NMF(non-negativematrixfactorization)的基本思想可以简单描述为:对于任意给定的一个非负矩阵A,NMF算法能够寻找到一个非负矩阵U和一个非负矩阵V,将一个非负的矩阵分解为左右…

    2022年6月17日
    32
  • 摄像头模组 PDAF对焦(Phase Detection Auto Focus)

    摄像头模组 PDAF对焦(Phase Detection Auto Focus)http://blog.csdn.net/sylorchen/article/details/54618912本文主要是最近看的两个文档的总结,相对零散的笔记,包括《imx298softwarereferencePDAF》与《PDAFTruly》。1、PDAF功能的实现需要使用到shieldpixel的概念,包括right-half-shield与left-half-

    2022年9月6日
    2
  • 【深入Java虚拟机】之二:Class类文件结构「建议收藏」

    【深入Java虚拟机】之二:Class类文件结构「建议收藏」Java是与平台无关的语言,这得益于Java源代码编译后生成的存储字节码的文件,即Class文件,以及Java虚拟机的实现。不仅使用Java编译器可以把Java代码编译成存储字节码的Class文件,使用JRuby等其他语言的编译器也可以把程序代码编译成Class文件,虚拟机并不关心Class的来源是什么语言,只要它符合一定的结构,就可以在Java中运行。Java语言中的各种变量、关键字和运算符的语义最终都是由多条字节码命令组合而成的,因此字节码命令所能提供的语义描述能力肯定会比Java语言本身更强大,这便为

    2022年5月5日
    38
  • arcgis10从初学到精通电子版_arcgis入门到精通

    arcgis10从初学到精通电子版_arcgis入门到精通本教程内容包括:ArcGIS平台简介、ArcGIS应用基础、空间数据的采集与组织、空间数据的转换与处理、空间数据的可视化表达、GIS空间分析导论、矢量数据的空间分析、栅格数据的空间分析、三维分析、地统计分析等。适用于高等学校GIS专业、测绘工程、国土测绘与规划等专业,大学本科研究ArcGIS实验教程:ArcGIS10.2手把手图文安装教程ArcGIS实验教程——实验一:ArcGIS软件的认识与使用ArcGIS实验教程——实验二:地理配准完整操作步骤ArcGIS实验教程——实验三:矢量数据采集与编辑

    2022年9月5日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号