禁止百度爬虫_百度爬虫抓取规则

禁止百度爬虫_百度爬虫抓取规则在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:User-agent:BaiduspiderDisallow:/但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入si

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* – [F]

方法2:

SetEnvIfNoCase User-Agent “^Baiduspider” bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/209966.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 运行时常量池与字符串常量池_字符串常量池在堆中还是方法区

    运行时常量池与字符串常量池_字符串常量池在堆中还是方法区文章目录一、概念1、Class常量池(ClassConstantPool)1.1、常量池中数据项类型2、字符串池(StringPool、StringLiteralPool)2.1、参考文章:3、运行时常量池(RuntimeConstantPool)4、总结二、方法区的class文件信息,class常量池和运行时常量池的三者关系2.1、三者关系图:2.2、方法区class文…

    2022年7月28日
    8
  • c++二分法查找_二分法查找python代码

    c++二分法查找_二分法查找python代码二分法:二分法应用条件:1)数组为有序数组。2)同时题目还强调数组中无重复元素,因为一旦有重复元素,使用二分查找法返回的元素下标可能不是唯一的。区间的定义:区间的定义不同代码就不同。1)定义target在[left,right]区间while(left<=right)要使用<=,因为left==right是有意义的,所以使用<=。if(nums[middle]>target)right要赋值为middle-1,因为当前这个nums[mid

    2025年6月17日
    4
  • webstorm激活码2021【注册码】[通俗易懂]

    webstorm激活码2021【注册码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月19日
    73
  • 个人对json的一些简单理解?

    个人对json的一些简单理解?json是什么?没有.json结尾的这种文件,json(JavaScriptObjectNotation)是一种简单的数据交换格式,在此之前我也不知道这个东西其实没有想象的那么抽象,看看后面的例子会更清晰json中的数据结构json中只有两种数据基本结构,一种是MAP,或者叫对象,另一种是Array1.Map类似与java中的Map,这里是以{开始,以}结束,内部object内容是键…

    2022年6月8日
    33
  • Vue生成二维码_vue视频软件怎么生成二维码

    Vue生成二维码_vue视频软件怎么生成二维码1.在vue中安装qrcodejs2npminstall–saveqrcodejs22.在项目中引用qrcodejs2importQRcodefrom’qrcodejs2’3.使用到项目中<viewid=”qrCode”res=”qrCodeDiv”></view>methods:{bindQRcode(){ newQRcode(this.$refs.qrCodeDiv,{ text:”https://www..

    2022年10月3日
    3
  • JavaScript中location.hash详解「建议收藏」

    JavaScript中location.hash详解「建议收藏」原文地址:https://www.cnblogs.com/yeer/archive/2013/01/21/2869827.html去年9月,twitter改版。一个显著变化,就是URL加入了”#!”符号。比如,改版前的用户主页网址为  http://twitter.com/username改版后,就变成了  http://twitter.com/#!

    2022年7月13日
    16

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号