Python爬虫程序实例

Python爬虫程序实例在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“piplist”查看是否已经安装。做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。在上述代码中:主要抓取中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代

大家好,又见面了,我是你们的朋友全栈君。

在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。
在这里插入图片描述
在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。
在这里插入图片描述
在上述代码中:主要抓取

  • 中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代码中使用:
    div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
    可以得到新闻的标题的li区域内容,再使用对span区域取值,可以取到新闻标题的名称:
    spant=lia.find_all(‘span’, class_ = ‘total_txt’)
    spant是各标题的集合。以下取得各新闻内容的链接地址:
    suburl=””
    for a in lia.find_all(‘a’):
    suburl=a.get(‘href’)
    urlstr=self.server + suburl
    再使用如下的代码取得新闻的具体内容:
    req = requests.get(url = target)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
    texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
    return texts
    这样取得了所有内容后,再使用写入即可将新闻标题与内容抓取到文件中。
    源码下载:Python源码
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149643.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月17日 上午8:16
下一篇 2022年6月17日 上午8:16


相关推荐

  • 判断php的运行模式

    判断php的运行模式

    2021年10月27日
    36
  • 激光清洗行业现状 激光清洗机市场前景分析

    激光清洗行业现状 激光清洗机市场前景分析在高端制造业中 工业产品在进行电镀 磷化 喷涂 焊接和装配时 为了保证工件的质量 产品表面的污垢 油脂 灰尘 铁锈等污染物必须被移除 由于对表面清洗的高要求 激光清洗技术应运而生 激光清洗技术因其无力 无化学反应 无热效应等清洁特性 适用于各种材料 被认为是最可靠 最有效的表面处理技术 下面将介绍激光清洗行业的现状 分析激光清洗机的市场前景

    2026年3月17日
    2
  • pandas中使用fillna函数填充NaN值「建议收藏」

    pandas中使用fillna函数填充NaN值「建议收藏」1.参数解析1.1inplace参数取值:True、FalseTrue:直接修改原对象False:创建一个副本,修改副本,原对象不变(缺省默认)1.2method参数取值:{‘pad’,‘ffill’,‘backfill’,‘bfill’,None},defaultNonepad/ffill:用前一个非缺失值去填充该缺失值backfill/bfill:用下一个非缺失值填充该缺失值None:指定一个值去替换缺失值(缺省默认这种方式)1.3limit参数:限制

    2022年8月12日
    9
  • 12、动态链接库,dll

    12、动态链接库,dll

    2021年8月9日
    59
  • 100个javaweb实战项目(视频+源码+文档),带你上天![通俗易懂]

    所有项目的链接均为永久有效,但也不免出现个别链接被和谐的情况,如有链接失效,请及时留言,相遇即是缘分,请收藏此文,下次见面不迷路!话不多说,直接来干货!第01项目:SSM大型互联网电商项目(视频+源码)链接:https://pan.baidu.com/s/1VgNuaZ8pDpWHtBfEe7_28Q提取码:7zei第02项目:SSM分布式互联网商城(视频+文档资料)链接:https://pan.baidu.com/s/1SxNVzQcJNHisHUmj66xlMQ提取码:1n.

    2022年4月16日
    708
  • mysql redis配置文件详解_Redis配置文件redis.conf 详解

    mysql redis配置文件详解_Redis配置文件redis.conf 详解Redis配置文件redis.conf详解1.基本配置内存单位的表示#1k=>1000bytes#1kb=>1024bytes#1m=>1000000bytes#1mb=>1024*1024bytes#1g=>1000000000bytes#1gb=>1024*1024*1024bytes单位中不区分大小写1GB…

    2022年6月9日
    26

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号