Python爬虫程序实例

Python爬虫程序实例在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“piplist”查看是否已经安装。做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。在上述代码中:主要抓取中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代

大家好,又见面了,我是你们的朋友全栈君。

在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。
在这里插入图片描述
在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。
在这里插入图片描述
在上述代码中:主要抓取

  • 中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代码中使用:
    div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
    可以得到新闻的标题的li区域内容,再使用对span区域取值,可以取到新闻标题的名称:
    spant=lia.find_all(‘span’, class_ = ‘total_txt’)
    spant是各标题的集合。以下取得各新闻内容的链接地址:
    suburl=””
    for a in lia.find_all(‘a’):
    suburl=a.get(‘href’)
    urlstr=self.server + suburl
    再使用如下的代码取得新闻的具体内容:
    req = requests.get(url = target)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
    texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
    return texts
    这样取得了所有内容后,再使用写入即可将新闻标题与内容抓取到文件中。
    源码下载:Python源码
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149643.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 埃尔夫斯堡vs赫尔辛堡比分分析_马赛对阿贾克斯

    埃尔夫斯堡vs赫尔辛堡比分分析_马赛对阿贾克斯一、c++STL常用内容总结文章目录一、c++STL常用内容总结1.vector(数组)1.1介绍1.2方法函数1.3注意点1.3.a排序1.3.b访问2.stack(栈)2.1介绍2.2方法函数2.3注意点2.3.a.栈遍历2.3.b.模拟栈3.queue(队列)3.1介绍3.2方法函数4.deque(双端队列)4.1介绍4.2方法函数4.3注意点5.priority_queue(优先队列)5.1介绍5.2函数方法5.3设置优先级5.3.a基本数据类型的优先级5

    2025年5月25日
    4
  • 交换芯片架构 (一)「建议收藏」

    交换芯片架构 (一)「建议收藏」交换芯片由GE/XE接口(MAC/PHY)模块、CPU接口模块、输入输出匹配/修改模块、MMU模块、L2转发模块、L3转发模块、安全模块、流分类模块等模块组成,其结构如图1所示:                                                   图1 交换芯片的组成56504包含24个GE端口,4个10G端口,10G端口既可以用于堆叠【什么

    2025年9月23日
    7
  • 最全Python学习路线图【2020最新版】

    最全Python学习路线图【2020最新版】2020年最新的python学习大纲,专为python高薪打造另外很多人在学习Python的过程中,往往因为没有好的教程或者没人指导从而导致自己容易放弃,为此我建了个Python交流.裙:一久武其而

    2022年7月5日
    26
  • paping && psping 那些事

    paping && psping 那些事paping amp psping 简单描述 paping 跨平台 psping 只能在 windows 上进行使用 ping 跨平台当需要测试数据包能否通过 IP 协议到达特定主机 一般都是使用 ping 工作时 ping 向目标主机发送一个 ICMPEcho 请求的数据包 并等待接收 Echo 相应数据包 通过响应时间和成功响应的次数来判断丢包率和网络延迟 担当对方禁止 ICMP 之后 ping 将无效 所

    2025年9月2日
    2
  • python decode函数的用法_decode函数的用法

    python decode函数的用法_decode函数的用法DECODE函数是ORACLEPL/SQL是功能强大的函数之一,目前还只有ORACLE公司的SQL提供了此函数,其他数据库厂商的SQL实现还没有此功能。DECODE有什么用途呢?先构造一个例子,假设我们想给智星职员加工资,其标准是:工资在8000元以下的将加20%;工资在8000元以上的加15%,通常的做法是,先选出记录中的工资字段值?selectsalaryintovar-salar…

    2022年7月25日
    8
  • Centos7部署k8s集群及应用

    Centos7部署k8s集群及应用

    2022年2月15日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号