Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!Python爬虫之URL管理器:Python爬虫:URL管理器实现方式:Python爬虫之网页下载器:urllib2实现网页下载器的三种方法:具体代码:              Python网页解析器:…

大家好,又见面了,我是你们的朋友全栈君。

Python爬虫之URL管理器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器实现方式:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫之网页下载器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

urllib2实现网页下载器的三种方法:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

具体代码:

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

            Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!


Python网页解析器:

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

      Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!

例子:

import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        #r.encoding = 'utf-8'
        return r.text
    except:
        return ""
def getContent(url):
    html = getHTMLText(url)
    # print(html)
    soup = BeautifulSoup(html, "html.parser")
    title = soup.select("div.hd > h1")
    print(title[0].get_text())
    time = soup.select("div.a_Info > span.a_time")
    print(time[0].string)
    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")
    print(author[0].get_text())
    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")
    for para in paras:
        if len(para) > 0:
            print(para.get_text())
            print()
    #写入文件
    fo = open("text.txt", "w+")
    fo.writelines(title[0].get_text() + "\n")
    fo.writelines(time[0].get_text() + "\n")
    for para in paras:
        if len(para) > 0:
            fo.writelines(para.get_text() + "\n\n")
    fo.writelines(author[0].get_text() + '\n')
    fo.close()
    #将爬取到的文章用字典格式来存
    article = {
        'Title' : title[0].get_text(),
        'Time' : time[0].get_text(),
        'Paragraph' : paras,
        'Author' : author[0].get_text()
    }
    print(article)
def main():
    url = "http://news.qq.com/a/20170504/012032.htm"
    getContent(url);
main()

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134735.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • JAVA小白 编程练习500题 超详细!!!带答案!!!持续更新中~

    JAVA小白 编程练习500题 超详细!!!带答案!!!持续更新中~JAVA小白编程题练习可能有很多刚入门的小白不知道自己如何能快速提升编程技巧与熟练度其实大佬进阶之路只有一个~那就是疯狂码代码!!!实践出真知!!!所以为了大家能够想练习的时候有素材,泡泡给大家整理了一些练习题由于平时比较忙,所以我在不定时努力更新中,欢迎监督~500是立的Flag啊哈哈哈哈,我们共同努力吧,先出个100道,希望能给大家带来帮助~????????????练习题1:接收用户输入的3个整数,并将它们的最大值作为结果输出packagecn.cxy.exec;importj

    2022年4月29日
    58
  • linux怎样配置yum源_yum配置源

    linux怎样配置yum源_yum配置源目录一:配置本地yum源二:配置网络yum源更新源可以获取最新的软件信息,以更新您的系统Redhat7配置源YUM(YellowdogUpdaterModified):yum是Redhat系列系统基于RPM包构建的软件更新机制,可以自动解决rpm包之间的依赖关系,所有软件包由集中的yum软件仓库提供。其理念是使用一个中心仓库(repository)管理一部分甚至一…

    2022年8月13日
    4
  • 微信公众号无法抓包 提示请在微信客户端打开链接

    微信公众号无法抓包 提示请在微信客户端打开链接最近有一个需求是测试公司公众号中某个需要鉴权接口的性能。首先就是需要对该接口进行抓包,根据以前写过的一篇文章,我们可以过使用Fiddler对微信PC客户端抓包来获取接口信息。使用fiddler抓包微信公众号和小程序当我在微信PC端点击需要鉴权的公众号页面时弹出“请在微信客户端打开链接”OhMyGod!我的第一直觉是微信PC端升级所致(因为之前测试时没有出现过这个问题),check一下版本是:最新的3.5.046这个问题怎么搞?百度吧!关键词是什么呢?抱着试试看的态度搜索“…

    2022年5月10日
    73
  • 详解 Pytorch 实现 MNIST[通俗易懂]

    MNIST虽然很简单,但是值得我们学习的东西还是有很多的。项目虽然简单,但是个人建议还是将各个模块分开创建,特别是对于新人而言,模块化的创建会让读者更加清晰、易懂。CNN模块:卷积神经网络的组成;train模块:利用CNN模型对MNIST数据集进行训练并保存模型test模块:加载训练好的模型对测试集数据进行测试cnn.pt:train的CNN模型注意!有GPU的小伙伴尽量使用GPU训练,GPU的训练速度比CPU的训练速度高许多倍,可以节约大量训练时间CNN模块MN

    2022年4月8日
    83
  • redis windons安装教程

    redis windons安装教程redis windons安装教程

    2022年4月24日
    40
  • charles导致mac无法上网_mac可以ping通 但是浏览器上不了网

    charles导致mac无法上网_mac可以ping通 但是浏览器上不了网前言charles关闭后,发现网页突然打开了,那大概率是设置了代理,但明明已经关闭了charles,这是由于mac网络偏好设置中,使用的是手动代理,将其改为自动即可解决方法1打开网络偏好设置,

    2022年7月31日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号