robots txt防爬虫[通俗易懂]

robots txt防爬虫[通俗易懂]title:robots.txt防爬虫date:2018-07-1218:20:00tags:防坑指南categories:防坑指南事因:公司内部项目在百度搜索上输入名字会出现在搜索结果中,大佬们肯定不愿意啊,就需要禁止爬虫爬取。在项目根目录加入这个文件就行了。WHAT?::::::robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,…

大家好,又见面了,我是你们的朋友全栈君。


title: robots.txt防爬虫 date: 2018-07-12 18:20:00 tags:

  • 防坑指南 categories:
  • 防坑指南

事因: 公司内部项目在百度搜索上输入名字会出现在搜索结果中,大佬们肯定不愿意啊,就需要禁止爬虫爬取。在项目根目录加入这个文件就行了。

WHAT?

::::::

robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下。robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分爬虫可以爬取,哪些不可以爬取(防君子不防小人)。

robots.txt中的参数含义:

  1. User-agent:描述搜索引擎spider的名字。在“robots.txt“文件中,如果有多条 User-agent记录,说明有多个robot会受到该协议的约束。所以,“robots.txt”文件中至少要有一条User- agent记录。如果该项的值设为*(通配符),则该协议对任何搜索引擎机器人均有效。在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。
  2. Disallow: / 禁止访问的路径
例如:

Disallow: /home/news/data/,代表爬虫不能访问/home/news/data/后的所有URL,但能访问/home/news/data123

Disallow: /home/news/data,代表爬虫不能访问/home/news/data123、/home/news/datadasf等一系列以data开头的URL。

前者是精确屏蔽,后者是相对屏蔽
复制代码

3.Allow:/允许访问的路径

例如:

Disallow:/home/后面有news、video、image等多个路径

接着使用Allow:/home/news,代表禁止访问/home/后的一切路径,但可以访问/home/news路径
复制代码

介绍感兴趣就看看,不感兴趣的话直接复制下面的放在根目录就可以了。

robots.txt:

User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
复制代码
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134218.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 奇怪的电梯

    奇怪的电梯奇怪的电梯【问题描述】某栋大楼有一种很奇怪的电梯。大楼的每一层楼都可以停电梯,而且第i层楼(1≤i<N)上有一个数字K(≤K≤N)电梯只有四个按钮:开、关、上、下。上、下的层数等于当前楼层上的那个数字。当然,如果不能满足要求,相应的按钮就会失灵。例如:33125代表了Ki(K1=3,K2=3,…),从一层开始。在一层按“上”可以到4层,按“下”是不起作用的,因为没有-2层。那么从A层到B层至少要按几次按钮呢?【输入格式】第1行为3个用1个空格隔开的正整数,表示N、A、B(l≤N≤200,1≤

    2022年6月14日
    33
  • 请画出下面流程图对应的N-S图以及PAD图_软件设计流程图示例

    请画出下面流程图对应的N-S图以及PAD图_软件设计流程图示例在软件程序设计中,我们通常会用到以下几种图,来帮助我们,分析问题,整理逻辑。我将介绍这四种图的特性,以及区分它们的方法。1.N-S图:也叫盒图,由美国学者I.Nassi和B.Shneiderman提出,所以又称N-S图,可以清晰的表示程序的结构以及流程,其主要特征为“矩形框”。2.PAD图:全称为ProblemAnalysisDiagram,即问题分析图表,利用二维树形结构表示…

    2022年8月13日
    4
  • Nginx实现动静分离「建议收藏」

    Nginx实现动静分离「建议收藏」前言之前项目中需要用到百度地图,由于项目的特殊环境,所以需要下载百度的离线地图。我们知道,地图的展示其实就是一张张地图的图片展示,我们在网页上浏览查找位置的时候,其实都是在发送图片请求。这些图片请求相对于jsp,servlet来说就是所谓的静态资源,当然服务中的静态资源不仅仅只是图片,像页面样式css文件,js脚本文件这些都可以看着是静态资源。tomcat既可以静态资源也可以处理动态资源。但是…

    2022年4月28日
    49
  • XXE攻击与防御

    XXE攻击与防御XXEXXE是一种很常见的漏洞类型危害也挺大的,如果一个web服务器通过用户上传处理XML文件或POST请求时,那么可能就会存在漏洞。前段时间比较出名的微信支付的xxe漏洞漏洞简历XXE就是XML外部实体注入,当服务器允许引用外部实体时,同过构建恶意内容来攻击网站产生原因解析xml文件时允许加载外部实体,并且实体的URL支持file://和PHP://等协议,没有过滤用户提交的参数危害读取任意文件执行系统命令探测内网端口攻击内网网站DOS攻击…漏洞检测利用burp检测那些接

    2022年5月10日
    39
  • linux如何生成csv文件怎么打开,CSV文件扩展名 – 什么是.csv以及如何打开? – ReviverSoft…

    linux如何生成csv文件怎么打开,CSV文件扩展名 – 什么是.csv以及如何打开? – ReviverSoft…你在这里因为你有,有一个文件扩展名结尾的​​文件.csv.文件与文件扩展名.csv只能通过特定的应用程序推出。这有可能是.csv文件是数据文件,而不是文件或媒体,这意味着他们并不是在所有观看。什么是一&nbsp.csv&nbsp文件?存储在CSV格式内容请参考所附的与数据文件的.csv延伸,这些CSV文件中也被称为逗号分隔值的文件。在贴有一个文件中的“CSV”的.cs…

    2022年7月21日
    57
  • vdbench的作用_Vdbench—-文件系统IO,一致性校验,常见问题

    vdbench的作用_Vdbench—-文件系统IO,一致性校验,常见问题Linux环境—-多客户联机运行注意,此时会出现avahi-daemon服务的报错日志信息:关闭即可:systemctlstopavahi-daemonavahi-daemon是一种Linux操作系统上运行在客户机上实施查找基于网络的Zeroconfservice的服务守护进程。该服务可以为Zeroconf网络实现DNS服务发现及DNS组播规范。用户程序通过LinuxD-Bus信息…

    2022年5月19日
    38

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号