百度爬虫robots.txt文件规范[通俗易懂]

百度爬虫robots.txt文件规范[通俗易懂]robots.txt文件的格式 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:    “:” 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情

大家好,又见面了,我是你们的朋友全栈君。robots.txt文件的格式

 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
        “<field>:<optional space><value><optionalspace>”

 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干DisallowAllow,详细情况如下:
        User-agent:该项的值用于描述搜索引擎robot的名字。在“robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到“robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。如果在“robots.txt”文件中,加入“User-agent:SomeBot”和若干DisallowAllow行,那么名为“SomeBot”只受到“User-agent:SomeBot”后面的 DisallowAllow行的限制。

        Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如“Disallow:/help”禁止robot访问/help.html/helpabc.html/help/index.html,而“Disallow:/help/”则允许robot访问/help.html/helpabc.html,不能访问/help/index.html“Disallow:”说明允许robot访问该网站的所有url,在“/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

        Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如“Allow:/hibaidu”允许robot访问/hibaidu.htm/hibaiducom.html/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

        使用“*”and”$”
Baiduspider支持使用通配符“*”“$”来模糊匹配url
        “*” 匹配0或多个任意字符
         “$” 匹配行结束符。

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

原文更详细

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134590.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • SpringBoot——MybatisPlus修改时空字段不修改

    SpringBoot——MybatisPlus修改时空字段不修改SpringBoot——MybatisPlus修改时空字段不修改

    2022年4月23日
    70
  • mybatis自定义分页_java分页查询接口的实现

    mybatis自定义分页_java分页查询接口的实现问题出现原因是集成mybaits时会自动加上selecttmp_page.*,rownumrow_idfrom(查询语句)tmp_page出现这个问题的原因是查询语句的列有重复的,直接查询是看不出来原因的,把重复的列名找出来然后修改…

    2022年10月4日
    3
  • ScreenToGIF录像没有声音_录屏怎么变成gif

    ScreenToGIF录像没有声音_录屏怎么变成gif剪辑视频没有高清素材,视频下载受限,大部分录屏软件难用还要收费其实电脑录屏没那么麻烦,补充更新:今天意外地发现了两款非常不错的电脑录屏软件,整个软件体积小巧、操作简单,最为难得的是,录制的视频内容特别清晰,这里推荐给大家吧。软件全称:嗨格式录屏大师(下面是体验链接,大家可以试一试)http://dl-next.aunbox.cn/channel?channel=6aef2262​dl-next.a…

    2022年9月20日
    3
  • 猴子摘香蕉问题python_硬币找零&&爬楼梯&&猴子摘香蕉「建议收藏」

    猴子摘香蕉问题python_硬币找零&&爬楼梯&&猴子摘香蕉「建议收藏」硬币找零&&爬楼梯&&猴子摘香蕉假设有几种硬币,如1、3、5,并且数量无限。请找出能够组成某个数目的找零所使用最少的硬币数。#include”CoinProblem.h”#includeintcountNum=MAX;voidCoinProblem(int*coin,intLength,intValue,intcount){if(Value==0){if(count…

    2022年9月26日
    1
  • 125 Valid Palindrome

    125 Valid Palindrome

    2022年2月5日
    43
  • Java Class类简介

    Java Class类简介
    一,class类有什么用?
    class类的实例表示java应用运行时的类(classansenum)或接口(interfaceandannotation)(每个java类运行时都在JVM里表现为一个class对象,可通过类名.class,类型.getClass(),Class.forName(“类名”)等方法获取class对象)。数组同样也被映射为为class对象的一个类,所有具有相同元素类型和维数的数组都共享该Class对象。基本类型boolean,byte,ch

    2022年5月1日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号