Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!Python爬虫之URL管理器:Python爬虫:URL管理器实现方式:Python爬虫之网页下载器:urllib2实现网页下载器的三种方法:具体代码:              Python网页解析器:…

大家好,又见面了,我是你们的朋友全栈君。

Python爬虫之URL管理器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器实现方式:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫之网页下载器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

urllib2实现网页下载器的三种方法:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

具体代码:

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!


Python网页解析器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

      Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

例子:

import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        #r.encoding = 'utf-8'
        return r.text
    except:
        return ""
def getContent(url):
    html = getHTMLText(url)
    # print(html)
    soup = BeautifulSoup(html, "html.parser")
    title = soup.select("div.hd > h1")
    print(title[0].get_text())
    time = soup.select("div.a_Info > span.a_time")
    print(time[0].string)
    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")
    print(author[0].get_text())
    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")
    for para in paras:
        if len(para) > 0:
            print(para.get_text())
            print()
    #写入文件
    fo = open("text.txt", "w+")
    fo.writelines(title[0].get_text() + "\n")
    fo.writelines(time[0].get_text() + "\n")
    for para in paras:
        if len(para) > 0:
            fo.writelines(para.get_text() + "\n\n")
    fo.writelines(author[0].get_text() + '\n')
    fo.close()
    #将爬取到的文章用字典格式来存
    article = {
        'Title' : title[0].get_text(),
        'Time' : time[0].get_text(),
        'Paragraph' : paras,
        'Author' : author[0].get_text()
    }
    print(article)
def main():
    url = "http://news.qq.com/a/20170504/012032.htm"
    getContent(url);
main()

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134735.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 值得推荐的五个源码网站[通俗易懂]

    值得推荐的五个源码网站[通俗易懂]CSDN下载-IT资源大本营CSDN下载是一个提供学习资源、源码、在线学习视频、IT电子书、各类免费软件等下载服务的IT资源大本营,致力于为软件开发者提供知识传播、资源共享、共同学习的优质学习资源平台·码云Gitee.com是OSCHINA.NET推出的代码托管平台,支持Git和SVN,提供免费的私有仓库托管。目前已有超过500万的开发者选择Gitee。·Github作为开源代码库以及版本控制系统,Github拥有超过900万开发者用户。随着越来越多的应用程序转移到了云上,G

    2022年7月20日
    23
  • jdk8 hashmap线程安全吗_Python中的线程

    jdk8 hashmap线程安全吗_Python中的线程前言只要是对于集合有一定了解的一定都知道HashMap是线程不安全的,我们应该使用ConcurrentHashMap。但是为什么HashMap是线程不安全的呢,之前面试的时候也遇到到这样的问题,但是当时只停留在***知道是***的层面上,并没有深入理解***为什么是***。于是今天重温一个HashMap线程不安全的这个问题。首先需要强调一点,HashMap的线程不安全体现在会造成死循环、数据丢…

    2022年10月11日
    2
  • 手把手教你_android自己主动化实践方案选型

    手把手教你_android自己主动化实践方案选型

    2021年12月9日
    56
  • ArcGIS Engine中的Symbols详解

    ArcGIS Engine中的Symbols详解

    2022年3月11日
    31
  • 真封神虚拟服务器,服务器端文件详细介绍即修改(三)

    真封神虚拟服务器,服务器端文件详细介绍即修改(三)我们每星期加三个修改教程,废话不多说开始吧。1.打开服务器端,修改等级在version\chinese_gb\config的game_rule.ini可以设置最高等级和宝宝最高等级包括传送最高多钱。PK设置等等。这个相信大家一看就明白了。2.language这个文件夹属于指令的唯一能用的是W端可以读公告系统也就是点卡系统用公告修改器修改下能发公告这里就不多说了工具都是做好…

    2022年7月24日
    12
  • 怎样免费完美的把PDF转Word?

    怎样免费完美的把PDF转Word?简介PDF可以分为文字型PDF和图片型PDF,文字型PDF即可以选中文字内容的PDF,反之图片型PDF即无法选中文字的PDF,其内容实际上是图片。本文针对不同类型,介绍PDF转Word方法,可以说是目前的最优解,没有之一。文字型PDF转Word方法1-直接用Word打开优点简单方便缺点部分样式丢失,排版错位,转换并不完美部分文件会有乱码无法识别图片型PDF里的文字总结适合对样式不敏感,主要关心正文内容的用户文字型PDF转Word方法2-使用超级PDF在线工具可以看到Word.

    2022年5月8日
    55

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号