Python爬虫程序实例

Python爬虫程序实例在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“piplist”查看是否已经安装。做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。在上述代码中:主要抓取中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代

大家好,又见面了,我是你们的朋友全栈君。

在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。
在这里插入图片描述
在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。
在这里插入图片描述
在上述代码中:主要抓取

  • 中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代码中使用:
    div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
    可以得到新闻的标题的li区域内容,再使用对span区域取值,可以取到新闻标题的名称:
    spant=lia.find_all(‘span’, class_ = ‘total_txt’)
    spant是各标题的集合。以下取得各新闻内容的链接地址:
    suburl=””
    for a in lia.find_all(‘a’):
    suburl=a.get(‘href’)
    urlstr=self.server + suburl
    再使用如下的代码取得新闻的具体内容:
    req = requests.get(url = target)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
    texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
    return texts
    这样取得了所有内容后,再使用写入即可将新闻标题与内容抓取到文件中。
    源码下载:Python源码
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149643.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 大文件或目录复制时的信息统计脚本

    大文件或目录复制时的信息统计脚本

    2021年8月26日
    47
  • python学生管理系统代码_用python写学生管理系统

    python学生管理系统代码_用python写学生管理系统这几天开始接触了python语言,这语言相对c语言简洁了不少,语言真是一通百通,学起来还是比较轻松,在熟悉了基本语法,列表(序列),元组以及字典之后写了一个最基础简单的的学生管理系统能完成的功能有:学生管理系统 v1.0 1.添加学生的信息 2.删除学生的信息 3.修改学生的信息 4.查询学生的信息 5.遍历所有学生的信息 6.退出系统学生信息中,

    2022年9月20日
    3
  • 【Win10系统】Win10系统无线网消失,更改适配器只有以太网,找不到WLAN怎么解决?

    【Win10系统】Win10系统无线网消失,更改适配器只有以太网,找不到WLAN怎么解决?已经快三天了,不想重装系统,前天早上起床打开电脑突然发现右下角网络只有一个飞行模式,旁边的WLAN消失了,到网络属性中更改适配器设置也没找到,几乎试了网上所有的解决办法。1.网络重置2.cmd命令netshwinsockreset3.关机-断电-拔电池或者插拔网卡(未尝试,还要拆螺丝,麻烦)4.services.msc启动那几个服务项5.开飞行模式,重启,关飞行模式6.CClea…

    2022年7月11日
    77
  • 龙芯版UOS 自带浏览器无法使用flash在线播放视频

    龙芯版UOS 自带浏览器无法使用flash在线播放视频龙芯版UOS自带浏览器无法使用flash在线播放视频1.案例无法播放视频龙芯CPU使用MIPS指令集,用互联网的最新flash(一般情况下,是X86指令集flash),点击下载安装最新flash,会提示安装失败。2.解决办法a.打开命令界面(效果如下)b1.输入命令:sudoaptinstallfirefox-flashplayerb2.输入命令:输入密码3.完成后重新打开UOS自带浏览器,就可以轻松看视频。祝大家生活愉快!!!在此鸣谢:感谢龙芯大佬指导

    2022年6月6日
    38
  • Enterprise Library 2.0 — Logging Application Block (上)「建议收藏」

    Enterprise Library 2.0 — Logging Application Block (上)「建议收藏」Enterprise Library 2.0 — Logging Application Block (上)

    2022年4月21日
    37
  • sqrt函数原型c语言,C语言sqrt函数的实例用法讲解

    sqrt函数原型c语言,C语言sqrt函数的实例用法讲解前言继承是OOP设计中的重要概念。在C++语言中,派生类继承基类有三种继承方式:私有继承(private)、保护继承(protected)和公有继承(public)。一、继承规则继承是C++中的重要特性,派生2021-03-2218:02:41大家有没有在项目中遇到过,将一些预定义的本地结构体转换为Json字符串后,发送到网络中的情形。那我猜想下大家常规的做法:写一个函数,传入结构体的指针,然后…

    2022年5月1日
    75

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号