如何通过 User-Agent 识别百度蜘蛛

如何通过 User-Agent 识别百度蜘蛛如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baiduspider)。搜索引擎蜘蛛、用户访

大家好,又见面了,我是你们的朋友全栈君。

如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下几个:

  • 百度 PC 蜘蛛 User-Agent 是:

    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

  • 百度移动蜘蛛 User-Agent 是:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • 还有一个是 Baiduspider-render/2.0 User-Agent 是:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。

还有其他的百度产品的 User-Agent:

  • 百度图片搜索 User-Agent:

    Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

  • 百度视频搜索 User-Agent:

    Baiduspider-video

  • 百度新闻搜索 User-Agent:

    Baiduspider-news

  • 百度搜藏 User-Agent:

    Baiduspider-favo

  • 百度联盟 User-Agent:

    Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)

  • 商务搜索 User-Agent:

    Baiduspider-ads

以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。

参考资料:

1、爬虫识别 – 百度蜘蛛

2、站长平台 – 常见问题解答

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155758.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 利用139邮箱的免费短信提醒作为报警接口「建议收藏」

    利用139邮箱的免费短信提醒作为报警接口「建议收藏」各位开发者手机短信里肯定都收到过线上业务报警短信,邮箱里肯定有更多报警邮件,很多公司都把报警信息通过邮件发送,但是这样不能保证接收到。通过短信发送的话,即使很多短信接口很便宜,但是每条也有四五分钱,而且报警信息通过不会单个出现,所以,万一bug集中出现,就亏大了。然后我发现了个神器,以前一直没有注意的垃圾信息:移动提供的默认139邮箱,每次收到邮件都会发送免费短信,既然这样,为何不把报警邮件发到13

    2022年10月13日
    1
  • Servlet再度学习

    Servlet再度学习

    2020年11月12日
    170
  • vmware15激活码【2022最新】

    (vmware15激活码)好多小伙伴总是说激活码老是失效,太麻烦,关注/收藏全栈君太难教程,2021永久激活的方法等着你。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html1TCF2R91JZ-eyJsaWNlbnNlSWQi…

    2022年3月31日
    196
  • mybatiscodehelperpro 2.9.6 怎么激活(注册激活)「建议收藏」

    (mybatiscodehelperpro 2.9.6 怎么激活)这是一篇idea技术相关文章,由全栈君为大家提供,主要知识点是关于2021JetBrains全家桶永久激活码的内容IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html0VOERWDQ5R-eyJsa…

    2022年3月31日
    960
  • [I.MX6UL] U-Boot移植(六) 网络驱动修改 LAN8720A

    [I.MX6UL] U-Boot移植(六) 网络驱动修改 LAN8720AI.MX6UL/ULL内部有个以太网MAC外设,也就是ENET,需要外接一个PHY芯片来实现网络通信功能,也就是内部MAC+外部PHY芯片的方案。I.MX6UL/ULL有两个网络接口ENET1和ENET2,I.MX6U-ALPHA开发板提供了这两个网络接口,其中ENET1和ENET2都使用LAN8720A作为PHY芯片。NXP官方的I.MX6ULLEVK开发板使用KSZ8081这颗PHY芯片,LAN8720A相比KSZ8081具有体积小、.

    2022年6月21日
    30
  • PostgreSQL数据库备份和恢复

    PostgreSQL数据库备份和恢复一、备份1、cmd到PostgreSQL安装目录bin下2、备份命令pg_dump-h192.168.100.23-Upostgrespostgres>D:\postgres.bak3、指令解释如上命令,pg_dump是备份数据库指令;10.194.227.231是数据库的ip地址;postgres是数据库的用户名;postgres是数据库名;>意思是导出到指定目录;4、图文并茂备份二、恢复1、备份命令psql

    2022年5月14日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号