禁止百度爬虫_百度爬虫抓取规则

禁止百度爬虫_百度爬虫抓取规则在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:User-agent:BaiduspiderDisallow:/但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入si

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* – [F]

方法2:

SetEnvIfNoCase User-Agent “^Baiduspider” bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/209966.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 创建数组的两种方式

    创建数组的两种方式1.通过构造函数创建数组1.1let变量名称=newArray(size)//创建一个指定大小的数组1.2let变量名称=newArray()//创建一个空的数组1.3let变量名称=newArray(data1,data2,…)//创建一个带数据的数组2.通过字面量创建数组2.1 let变量名称=[]创建一个空数组…

    2022年5月31日
    47
  • JAX-WS – Soap详解[通俗易懂]

    JAX-WS – Soap详解[通俗易懂]一、创建Soap //创建消息工厂 MessageFactoryfactory=MessageFactory.newInstance(); //通过工厂创建Soap的消息 SOAPMessagemessage=factory.createMessage(); //获取SoapPart SOAPPartpart=message.getSO

    2022年7月15日
    20
  • 电脑磁盘未知没有初始化_win7怎么进去计算机管理

    电脑磁盘未知没有初始化_win7怎么进去计算机管理win7系统想必大家都非常熟悉吧,然而有时候可能会碰到win7系统电脑新增的硬盘没有初始化的情况,想必大家都遇到过win7系统电脑新增的硬盘没有初始化的情况吧,那么应该怎么处理win7系统电脑新增的硬盘没有初始化呢?我们依照  1、当正常增加新硬盘后,登录系统,打开磁盘管理,系统会自动打开【磁盘初始化和转换向导】,单击“下一步”; 2、正确选择要初始化的磁盘,单击“下一步”;这样的步骤就行了;下…

    2022年9月21日
    4
  • pycharm快速替换_pycharm代码追踪

    pycharm快速替换_pycharm代码追踪1.在ios中用commend+shift+R打开菜单windons系统可以试试將commend替换为control会出现这样的界面(如果你有提前选中单词的话,系统将默认被选中的单词是將被替换的单词(可以更改))2.在第二行输入需要保留的语句,然后按下回车即可替换我们会发现标记的地方发生了替换注:一定要注意自己要替换的是那些部分(那些文件(它是可以替换别的文件的语句的))!!!!千万不要替换错了(多了),很难改…

    2022年8月28日
    8
  • WebStorm快捷键配置「建议收藏」

    WebStorm快捷键配置「建议收藏」①浏览器快捷键设置

    2022年6月23日
    36
  • 非阻塞connect errno为EINPROGRESS,如何判断已经连接上了?[通俗易懂]

    非阻塞connect errno为EINPROGRESS,如何判断已经连接上了?[通俗易懂]via:http://stackoverflow.com/questions/8145624/getpeername-can-not-recognize-connection-established

    2022年7月16日
    13

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号