robots.txt用法

robots.txt用法robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是遵循robots.txt的规则来索引页面,但是一些spam爬虫不会遵循,所…

大家好,又见面了,我是你们的朋友全栈君。

robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。

robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是遵循robots.txt的规则来索引页面,但是一些spam爬虫不会遵循,所以说robots.txt只能防君子,不能防小人,如果目录下有隐私的文件夹,建议设置密码或者登陆用户才能访问。

robots.txt基本用法

User-agent

User-agent是用来匹配爬虫的,每个爬虫都会有一个名字,如果你有安装awstats统计工具,你就能查看到爬虫的名字,比如百度的爬虫叫BaiDuSpider,Google的爬虫叫Googlebot,*表示所有爬虫。

 

 

Disallow

Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

Allow

Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

Sitemap

Sitemap用来指定sitemap的位置。

Crawl-delay

Crawl-delay用来告诉爬虫两次访问的间隔,单位是秒。爬虫如果爬得很勤,对动态网站来说,压力有点大,可能会导致服务器负载增高,用户访问变慢。

在计算Crawl-delay时间的时候,要稍微计算一下,ysearchblog上有篇日志,介绍得很清楚。

通配符|wildcard match

*:匹配任意多个字符

$:表示URL的结尾

注意|notice

  • URL区分大小写,所以 /abc/ 和 /Abc/ 表示不同的目录。
  • 后面有没有斜杠也是不一样的,/private 和 /private/也表示两个不同的地址。

例子|examples

不管是Disallow,Allow还是Sitemap,每行只能写一条规则。Google本身就有一个robots.txt,值得大家参考。

拦截部分文件或目录

User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /aaa.html

允许爬虫访问所有的目录,有两种写法

User-agent: * 
Disallow:

User-agent: * 
Allow: /

通配符的使用,拦截.gif文件

User-agent: * 
Disallow: /*.gif$

拦截带有?的文件

User-agent: * 
Disallow: /*?

Sitemap例子

Sitemap: http://www.ezloo.com/sitemap.xml

参考资料|reference

转载于:https://www.cnblogs.com/oray/p/3746750.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/133473.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • csdn如何转载博客_csdn怎么分享链接

    csdn如何转载博客_csdn怎么分享链接后续的文章将自动同步到csdn

    2022年7月28日
    2
  • Arduino编程之Serial.println()和Serial.print()

    Arduino编程之Serial.println()和Serial.print()Arduino编程之Serial.println()和Serial.print()Arduino的输出基本就用两个函数print和println,区别在于后者比前者多了回车换行Serial.println(data)从串行端口输出数据,跟随一个回车(ASCII13,或’r’)和一个换行符(ASCII10,或’n’)。这个函数所取得的值与Serial.print()一样。Ser…

    2022年10月3日
    0
  • 机房收费系统——组合查询

    机房收费系统——组合查询机房收费系统——组合查询

    2022年4月24日
    35
  • Android Studio入门到精通[通俗易懂]

    Android Studio入门到精通[通俗易懂]PS一句:最终还是选择CSDN来整理发表这几年的知识点,该文章平行迁移到CSDN。因为CSDN也支持MarkDown语法了,牛逼啊!目标:AndroidStudio新手–>下载安装配置–>零基础入门–>基本使用–>调试技能–>构建项目基础–>使用AS应对常规应用开发AS简介经过2年时间的研发,Google终于正式发布了面向Android开发者的集成开发环境AndroidStudio1.2(稳定

    2022年6月5日
    36
  • logstash高速入口

    logstash高速入口

    2022年1月10日
    41
  • windows elk搭建_windows搭建ftp系统

    windows elk搭建_windows搭建ftp系统前提条件,已有如下红色线中安装包:资源路径:https://download.csdn.net/download/lijiaheng525/10789382(无下载的积分的留言,可以私下发你)第一步:下载nodejs并安装,然后在安装的目录下执行如下命令,安装grunt(head插件需要用到grunt命令):第二步:切换到head插件的解压目录,安装pathomj…

    2022年10月8日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号