如何通过 User-Agent 识别百度蜘蛛

如何通过 User-Agent 识别百度蜘蛛如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baiduspider)。搜索引擎蜘蛛、用户访

大家好,又见面了,我是你们的朋友全栈君。

如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下几个:

  • 百度 PC 蜘蛛 User-Agent 是:

    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

  • 百度移动蜘蛛 User-Agent 是:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • 还有一个是 Baiduspider-render/2.0 User-Agent 是:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。

还有其他的百度产品的 User-Agent:

  • 百度图片搜索 User-Agent:

    Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

  • 百度视频搜索 User-Agent:

    Baiduspider-video

  • 百度新闻搜索 User-Agent:

    Baiduspider-news

  • 百度搜藏 User-Agent:

    Baiduspider-favo

  • 百度联盟 User-Agent:

    Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)

  • 商务搜索 User-Agent:

    Baiduspider-ads

以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。

参考资料:

1、爬虫识别 – 百度蜘蛛

2、站长平台 – 常见问题解答

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155758.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java面试题及答案2020 大汇总

    java面试题及答案2020 大汇总java面试题及答案2020java面试题大汇总百度第一篇java面试题及答案2020先点赞后收藏,以后更新及时看文末后续更新答案,持续更新一面2018/9/11来自于牛客网1、手写ArrayList2、手写进制转换算法,求出一个数的二进制数1的个数3、JAVA基础,equals和==4、多线程方式、threadlocal,各种锁,synchronized和lock5、设计模式、spring类加载方式、实例保存在哪、aopioc、反射机制6、类加载器,双亲委派模

    2022年8月25日
    3
  • 网页音乐播放器代码

    网页音乐播放器代码网页音乐播放器代码如果你也想往自己的博客里,网页里加入音乐播放器,只要复制下面的网页音乐播放器代码,做适当的修改就可以啦!有很多播放器可以选择,不要挑花眼哦!中true或1表示自动播放,false或0表示手动播放loop=”true”中的true或1表示重复播放,f

    2022年6月16日
    34
  • Linux基础之正则表达式

    Linux基础之正则表达式正则表达式:又称规则表达式。(英语:RegularExpression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符…

    2022年7月13日
    18
  • 产品需求分析与市场分析方法汇总(SWOT+PDCA+波士顿矩阵BCG+5W2H分析法+STAR关键事件分析法+目标管理SMART+时间管理紧急重要矩阵+WBS任务分解法)

    产品需求分析与市场分析方法汇总(SWOT+PDCA+波士顿矩阵BCG+5W2H分析法+STAR关键事件分析法+目标管理SMART+时间管理紧急重要矩阵+WBS任务分解法)产品需求分析与市场分析方法汇总(SWOT+PDCA+波士顿矩阵BCG+5W2H分析法+STAR关键事件分析法+目标管理SMART+时间管理紧急重要矩阵+WBS任务分解法)产品需求分析与市场分析方法汇总http://www.chanpin100.com/article/55744一、KANO模型KANO模型分为:基本型需求、期望型需求、兴奋型需求。1.基本型需求,这类需求是应…

    2022年5月18日
    74
  • vue.js 三种方式安装(vue-cli)

    vue.js 三种方式安装(vue-cli)Vue.js(读音/vjuː/,类似于view)是一个构建数据驱动的web界面的渐进式框架。Vue.js的目标是通过尽可能简单的API实现响应的数据绑定和组合的视图组件。它不仅易于上手,还便于与第三方库或既有项目整合。下面介绍三种Vue.js的安装方法:1.独立版本我们可以在Vue.js的官网上直接下载vue…

    2022年6月14日
    31
  • VBoxGuestAdditions加载不了

    VBoxGuestAdditions加载不了未能加载虚拟光盘D:\ProgramFiles(x86)\oraclevm\VBoxGuestAdditions.iso到虚拟电脑centeros7_8.Couldnotmountthemedia/drive’D:\ProgramFiles(x86)\oraclevm\VBoxGuestAdditions.iso'(VERR_PDM_MEDIA_LOCKED).返回代码: E_FAIL(0x80004005) 组件: ConsoleWrap 界…

    2022年6月16日
    138

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号