百度新闻爬虫

百度新闻爬虫这是本项目的开篇 在这个小项目中 将要基于爬虫和 GUI 编程写一个写个小工具 目的是不用打开浏览器 也能搜到一些关键信息 并将这些信息持久化保存下来 读者可以对这些数据进行分析 比如舆情分析 或作为 NLP 的语料输入 众所周知 搜索引擎的一个核心技术就是爬虫技术 各大搜索引擎的爬虫将个网站的快照索引起来 用户搜索时 输入关键词并回车后 基于搜索引擎的浏览器就将相关信息按照一定排序规则展现给用户 今天分享的这个爬虫 是爬取百度爬虫爬取的内容 听起来 有点像俄罗斯套娃 其实你现在能够在网站看到的这篇文章

这是本项目的开篇,在这个小项目中,将要基于爬虫和GUI编程写一个写个小工具,目的是不用打开浏览器,也能搜到一些关键信息,并将这些信息持久化保存下来,读者可以对这些数据进行分析,比如舆情分析,或作为 NLP 的语料输入。

众所周知,搜索引擎的一个核心技术就是爬虫技术,各大搜索引擎的爬虫将个网站的快照索引起来 ,用户搜索时,输入关键词并回车后,基于搜索引擎的浏览器就将相关信息按照一定排序规则展现给用户,今天分享的这个爬虫,是爬取百度爬虫爬取的内容,听起来,有点像俄罗斯套娃。

其实你现在能够在网站看到的这篇文章,就有百度爬虫的功劳。

话不多说,先用一张图,说明要爬取的内容

在这里插入图片描述

如图,爬取的目标是百度咨询下的每一条内容,包括标题、来源、时间和内容,并且翻页爬取、爬完能够自动停止,而且能够按照焦点/时间排序。

经过调试分析,发现排序规则和参数 rtt 相关,rtt = 1 是按照焦点排序,rtt = 4 是按照时间排序,这样就很容易解决排序抓取的问题。

翻页只需要控制 pn 参数即可,其值等于当前页码 * 10;爬完自动停止,首先要知道什么时候爬完,从上面图中可以发现,网页上有“找到相关资讯约535,000篇”,好家伙,每页 10 篇,总页数就知道了,就知道什么时候停止了。

下面就是写代码逐渐实现的过程了。

首先备好爬虫的原料

headers = { 
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36', 'Referer': 'https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&word=%B0%D9%B6%C8%D0%C2%CE%C5&fr=zhidao' } url = 'https://www.baidu.com/s' params = { 
    'ie': 'utf-8', 'medium': 0, # rtt=4 按时间排序 rtt=1 按焦点排序 'rtt': 1, 'bsst': 1, 'rsv_dl': 'news_t_sk', 'cl': 2, 'tn': 'news', 'rsv_bp': 1, 'oq': '', 'rsv_btype': 't', 'f': 8, } 

然后稍微小炒一下,拿到总篇数,但是不能浪费这次请求,毕竟这个页面上也有 10 篇文章需要解析,所以第一次请求的目的是拿到停止条件同时解析前 10 篇,注意它和后面的请求处理过程多了拿到总篇数这个过程,所以不放在后面的循环里。

response = requests.get(url=url, params=params, headers=headers)

html = etree.HTML(response.text) dealHtml(html) total = html.xpath('//div[@id="header_top_bar"]/span/text()')[0] total = total.replace(',', '') total = int(total[7:-1]) pageNum = total // 10 

但是它的每条新闻解析过程,和后面都是一样的,都在 dealHtml 中

def dealHtml(html): results = html.xpath('//div[@class="result-op c-container xpath-log new-pmd"]') saveData = [] for result in results: title = result.xpath('.//h3/a')[0] title = title.xpath('string(.)').strip() summary = result.xpath('.//span[@class="c-font-normal c-color-text"]')[0] summary = summary.xpath('string(.)').strip() # ./ 是直接下级,.// 是直接/间接下级 infos = result.xpath('.//div[@class="news-source"]')[0] source, dateTime = infos.xpath(".//span[last()-1]/text()")[0], \ infos.xpath(".//span[last()]/text()")[0] dateTime = parseTime(dateTime) print('标题', title) print('来源', source) print('时间', dateTime) print('概要', summary) print('\n') saveData.append({ 
    'title': title, 'source': source, 'time': dateTime, 'summary': summary }) 

然后紧接着中火慢炖,坐等美味,注意不要烧焦了,要及时加一些水或调料,动态修改页面参数

for page in range(1,pageNum): print('第 {} 页\n\n'.format(page)) headers['Referer'] = response.url params['pn'] = page*10 response = requests.get(url=url,headers=headers,params=params)

    html = etree.HTML(response.text) dealHtml(html) sleep(randint(2,4)) 

最后就是出锅了,这道菜的名称叫做,耗子尾汁,请君享用

with open(fileName, 'a+', encoding='utf-8-sig', newline='') as f: writer = csv.writer(f) for row in saveData: writer.writerow([row['title'], row['source'], row['time'], row['summary']]) 

在这里插入图片描述

言归正传,本次项目的第一部分:百度爬虫的爬虫,就算完成了,爬虫所有代码的 github 地址如下:

https://github.com/Python3Spiders/BaiduSpider

本项目的下一部分,等我找好朝天椒,再爆炒上桌,莫急莫急。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/202314.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月20日 上午7:25
下一篇 2026年3月20日 上午7:25


相关推荐

  • sqlserver数据库置疑_sqlserver2008数据库可疑

    sqlserver数据库置疑_sqlserver2008数据库可疑一、数据库异常我们平时在使用SQLServer时,可能会遇到以下情况:1、数据库变为置疑状态2、使用数据库文件恢复数据库时,附加的数据库显示为置疑状态3、无法附加数据库数据库置疑的原因:SQLServer所在分区空间是否够?数据库文件大小是否达到最大文件限制?FAT的格式只支持四G以内的文件  2、数据库文件损坏或被非正常删除时出现这种情况  3、病毒防火墙的扫…

    2022年8月20日
    7
  • mysql的自定义函数_mysql执行自定义函数

    mysql的自定义函数_mysql执行自定义函数1.函数简介mysql5.0开始支持函数,函数是存在数据库中的一段sql集合,调用函数可以减少很多工作量,减少数据在数据库和应用服务器上的传输,对于提高数据处理的效率。参数类型为in类型,函数必须有返回值,与oracle等其他库函数参数类型有区别,如果做数据迁移,或许需要将函数改变成存储过程,因为mysql的存储过程参数包括in,out,inout三种模式。创建函数语法:…

    2025年10月6日
    3
  • S3C2440移植uboot之支持NAND启动

    S3C2440移植uboot之支持NAND启动上一节S3C2440移植uboot之新建单板_时钟_SDRAM_串口移植uboot初始化了时钟,配置了支持串口,这一节我们继续修改uboot支持NAND启动。

    2022年6月13日
    25
  • js算法初窥02(排序算法02-归并、快速以及堆排序)

    上一篇,我们讲述了一些简单的排序算法,其实说到底,在前端的职业生涯中,不涉及node、不涉及后台的情况下,我目前还真的没想到有哪些地方可以用到这些数据结构和算法,但是我在前面的文章也说过了。或许你用不

    2022年3月25日
    41
  • 投巧解决JavaScript split方法出现空字符的问题

    投巧解决JavaScript split方法出现空字符的问题直接使用split,前后各有一个“”值。>>varstr=’,a,b,c,d,e,f,’;>>str.split(‘,’);//(8)[“”,”a”,”b”,”c”,”d”,”e”,”f”,””]临时方法:split后,可以用filter过滤掉空值。>>varstr=’,a,b,c,d,e,f,’;>&…

    2025年8月8日
    6
  • IDEA如何设置字体大小?

    IDEA如何设置字体大小?1 首先 启动 IDEA2 选择单击菜单栏 Flie Settings 设置弹出 Settings 对话框 3 改变 size 大小 gt 点击 apply gt 点击 OK 即可 我们会发现字体已经变大

    2026年3月20日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号