百度爬虫robots.txt文件规范[通俗易懂]

百度爬虫robots.txt文件规范[通俗易懂]robots.txt文件的格式 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:    “:” 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情

大家好,又见面了,我是你们的朋友全栈君。robots.txt文件的格式

 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
        “<field>:<optional space><value><optionalspace>”

 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干DisallowAllow,详细情况如下:
        User-agent:该项的值用于描述搜索引擎robot的名字。在“robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到“robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。如果在“robots.txt”文件中,加入“User-agent:SomeBot”和若干DisallowAllow行,那么名为“SomeBot”只受到“User-agent:SomeBot”后面的 DisallowAllow行的限制。

        Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如“Disallow:/help”禁止robot访问/help.html/helpabc.html/help/index.html,而“Disallow:/help/”则允许robot访问/help.html/helpabc.html,不能访问/help/index.html“Disallow:”说明允许robot访问该网站的所有url,在“/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

        Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如“Allow:/hibaidu”允许robot访问/hibaidu.htm/hibaiducom.html/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

        使用“*”and”$”
Baiduspider支持使用通配符“*”“$”来模糊匹配url
        “*” 匹配0或多个任意字符
         “$” 匹配行结束符。

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

原文更详细

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134590.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月2日 下午8:40
下一篇 2022年5月2日 下午9:00


相关推荐

  • 汇编语言伪指令详解(附实例)

    汇编语言伪指令详解(附实例)伪指令不是真正的指令 并没有与之对应的的机器码 不会被执行 伪指令所起的作用主要是对汇编过程进行控制 常见的伪指令如下所示 目录 1 ORG 汇编起始指令 2 END 汇编结束命令 3 EQU 赋值指令 4 DB 字节定义伪指令 5 DW 定义字命令 6 DS 定义存储空间指令 7 BIT 位地址符号命令功能 规定该伪指令下面的目标程序的起始地址格式 ORG16 位地址举例 ORG0080H 表示下面的程序从地址 0080H 开始

    2026年3月26日
    2
  • pytest skipif_白盒测试用例

    pytest skipif_白盒测试用例前言pytest.mark.skip可以标记无法在某些平台上运行的测试功能,或者您希望失败的测试功能Skip和xfail:处理那些不会成功的测试用例你可以对那些在某些特定平台上不能运行的测试用

    2022年7月28日
    4
  • 国产大模型选型迷雾激活成功教程:GLM5、Kimi 2.5、Minimax M2.5等如何精准落位?

    国产大模型选型迷雾激活成功教程:GLM5、Kimi 2.5、Minimax M2.5等如何精准落位?

    2026年3月16日
    1
  • HashMap底层实现原理_计算机底层原理

    HashMap底层实现原理_计算机底层原理文章目录前言一、快速入门二、使用步骤1.引入库2.读入数据总结学习内容:学习时间:学习产出:前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:以下是本篇文章对HashMap的实现原理内容,下面案例可供参考提示:以下是本篇文章正文内容,下面案例可供参考一、快速入门示例:有一定基础的小伙伴们可以选择性的跳过该步骤HashMap是Java程序员使用频率最高的用于映射键值对(key和value)处理的数据类型。随着JDK版本的跟新,JDK1.8对HashMap底层的实现进行

    2025年10月19日
    4
  • activiti5.22 springboot 流程引擎 实战全过程

    activiti5.22 springboot 流程引擎 实战全过程一.背景现在很多项目流程上比较复杂,业务上不复杂,对于这种项目,引入流程引擎会比较合适,流程有流程引擎去做管理,让设计更合理,开发更简单。市面上有很多款流程引擎,本人选用了使用率比较广的流程引擎activiti。activiti现在最高版本已经到7,springboot最高版本是6,由于网络上5.22版本资料最多,所以选用了5.22版本作为项目集成。二.activi…

    2022年10月20日
    5
  • VAP简单解读_vip是什么意思

    VAP简单解读_vip是什么意思https://cloud.tencent.com/developer/article/1693852特点:1.先前市面已有开源方案,并非先例2.kotlin语言3.代码量较小,很快就能理解大致逻辑4.需要使用ffmpeg工具进行动画视频的二次处理基本原理:输入mp4文件->MediaExtractor->音频->AudioTrack->视频->Surface…

    2025年8月10日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号