百度爬虫robots.txt文件规范[通俗易懂]

百度爬虫robots.txt文件规范[通俗易懂]robots.txt文件的格式 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:    “:” 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情

大家好,又见面了,我是你们的朋友全栈君。robots.txt文件的格式

 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
        “<field>:<optional space><value><optionalspace>”

 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干DisallowAllow,详细情况如下:
        User-agent:该项的值用于描述搜索引擎robot的名字。在“robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到“robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。如果在“robots.txt”文件中,加入“User-agent:SomeBot”和若干DisallowAllow行,那么名为“SomeBot”只受到“User-agent:SomeBot”后面的 DisallowAllow行的限制。

        Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如“Disallow:/help”禁止robot访问/help.html/helpabc.html/help/index.html,而“Disallow:/help/”则允许robot访问/help.html/helpabc.html,不能访问/help/index.html“Disallow:”说明允许robot访问该网站的所有url,在“/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

        Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如“Allow:/hibaidu”允许robot访问/hibaidu.htm/hibaiducom.html/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

        使用“*”and”$”
Baiduspider支持使用通配符“*”“$”来模糊匹配url
        “*” 匹配0或多个任意字符
         “$” 匹配行结束符。

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

原文更详细

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134590.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 如何将XPS文档转成Excel表格?

    如何将XPS文档转成Excel表格?今天收到一个XPS文档,打开文档后发现里面的内容都是数据,使用Excel用公式整理会非常方便,那么如何将XPS文件转换成表格呢?搜索了一圈虽然没有找到XPS转Excel工具,但却找到好用的XPS转PDF方法,于是只能曲线救国先转成PDF再PDF转Excel。方法1:在线转换首先打开speedpdf在线转换工具,选择XPS转PDF进入转换,接着添加需要转换的XPS文件后,点击转换,等待转换完成后点击下载,最后再点击左侧列表中的PDF转Excel,并添加上一步中下载的PDF文档转换即可。如果需要转换的

    2022年5月5日
    355
  • TFS2010安装与管理[通俗易懂]

    TFS2010安装与管理[通俗易懂]整了几天TFS,把相关的一些配置与安装的要点简单记下,希望对大家有用。本篇主要是安装与配置上的内容,下一篇会介绍如何使用以及使用方面的相关心得体会。本篇内容简要:1.安装部署1.1.流程1

    2022年7月3日
    22
  • at命令的用法

    at命令的用法at 命令的用法 nbsp At 列出在指定的时间和日期在计算机上运行的已计划命令或计划命令和程序 必须正在运行 计划 服务才能使用 at 命令 at computername id delete delete yes at computername time interactive every date

    2025年9月1日
    5
  • ARM_控制器

    ARM_控制器ARM_控制器1.GPIO控制器:(gpio口的通用函数接口定义在gpiolib.c文件中,声明则在gpio.h中)linux-3.10\include\linux\gpio.hlinux-3

    2022年8月4日
    10
  • evicted Pod

    evicted PodapiVersion:v1kind:Podmetadata:annotations:checksum/config:8476fd6406a3cc87e5471154d85fd7c50e6a629acda16989a09a5d90937bb5b0cni.projectcalico.org/podIP:192.168.1.233/32creationTimestamp:”2019-09-22T06:26:34Z”generateName:test-ap…

    2022年5月13日
    41
  • 继电器驱动电路原理及注意事项[通俗易懂]

    继电器驱动电路原理及注意事项[通俗易懂]继电器驱动电流一般需要20-40mA或更大,线圈电阻100-200欧姆,因此要加驱动电路  1. 晶体管用来驱动继电器,必须将晶体管的发射极接地。具体电路如下:NPN晶体管                            PNP晶体管 NPN晶体管驱动时:当晶体管T1基极被输入高电平时,晶体管饱和导通,集电极变为低电平,因此继电器线圈通电,触点RL1吸

    2022年6月24日
    26

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号