robots txt防爬虫[通俗易懂]

robots txt防爬虫[通俗易懂]title:robots.txt防爬虫date:2018-07-1218:20:00tags:防坑指南categories:防坑指南事因:公司内部项目在百度搜索上输入名字会出现在搜索结果中,大佬们肯定不愿意啊,就需要禁止爬虫爬取。在项目根目录加入这个文件就行了。WHAT?::::::robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,…

大家好,又见面了,我是你们的朋友全栈君。


title: robots.txt防爬虫 date: 2018-07-12 18:20:00 tags:

  • 防坑指南 categories:
  • 防坑指南

事因: 公司内部项目在百度搜索上输入名字会出现在搜索结果中,大佬们肯定不愿意啊,就需要禁止爬虫爬取。在项目根目录加入这个文件就行了。

WHAT?

::::::

robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下。robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分爬虫可以爬取,哪些不可以爬取(防君子不防小人)。

robots.txt中的参数含义:

  1. User-agent:描述搜索引擎spider的名字。在“robots.txt“文件中,如果有多条 User-agent记录,说明有多个robot会受到该协议的约束。所以,“robots.txt”文件中至少要有一条User- agent记录。如果该项的值设为*(通配符),则该协议对任何搜索引擎机器人均有效。在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。
  2. Disallow: / 禁止访问的路径
例如:

Disallow: /home/news/data/,代表爬虫不能访问/home/news/data/后的所有URL,但能访问/home/news/data123

Disallow: /home/news/data,代表爬虫不能访问/home/news/data123、/home/news/datadasf等一系列以data开头的URL。

前者是精确屏蔽,后者是相对屏蔽
复制代码

3.Allow:/允许访问的路径

例如:

Disallow:/home/后面有news、video、image等多个路径

接着使用Allow:/home/news,代表禁止访问/home/后的一切路径,但可以访问/home/news路径
复制代码

介绍感兴趣就看看,不感兴趣的话直接复制下面的放在根目录就可以了。

robots.txt:

User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
复制代码
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134218.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 手机上编写Java程序的软件

    手机上编写Java程序的软件对于程序员来说,编写代码几乎都是在电脑上,但有时候在一些特殊情况下,没有电脑,或者不方便带电脑,这时就想,要是能在手机上写代码该多好啊。以前我也折腾过,找过许多软件,但感觉不如我意;但我并没有放弃,在浏览YouTube的时候,偶然发现了一款软件,好奇的我就下载来试了试,还真是好用,功能挺齐全的。下面就给大家推荐一下。Android系统由于本人用的是Android手机,就主要讲讲在Android…

    2022年6月9日
    35
  • 国外全能免费主页空间

    国外全能免费主页空间国外全能免费主页空间,支持ASP.NET、PHP、CGI等 [来源:不详|作者:佚名|时间:2007-6-622:19:28|收藏本文]   WebHostforASP.NET提供15M免费主页空间,每月2G的流量限制,web方式上传管理文件,支持ASP、ASP.NET、PHP、Perl、CGI以及Access数据库,无广告。必须拥有顶级域名才能申请,如果您手头上有空

    2022年7月11日
    23
  • Ubuntu(VMWare)与Windows共享文件的简单方法

    Ubuntu(VMWare)与Windows共享文件的简单方法

    2021年7月30日
    66
  • 《数据结构》— 数据结构图文解析系列

    《数据结构》— 数据结构图文解析系列查看原文点击链接即可0.数据结构图文解析系列数据结构系列文章 数据结构图文解析之:数组、单链表、双链表介绍及C++模板实现 数据结构图文解析之:栈的简介及C++模板实现 数据结构图文解析之:队列详解与C++模板实现 数据结构图文解析之:树的简介及二叉排序树C++模板实现. 数据结构图文解析之:AVL树详解及C++模板实现 数据结构图文解析之:二叉堆详解及C++模板…

    2022年6月28日
    27
  • python基础(2)字符串常用方法[通俗易懂]

    python基础(2)字符串常用方法[通俗易懂]python字符串常用方法find(sub[,start[,end]])在索引start和end之间查找字符串sub​找到,则返回最左端的索引值,未找到,则返回-1​start和end都可

    2022年7月30日
    6
  • vue漂亮的树控件_前端树形控件

    vue漂亮的树控件_前端树形控件实现效果与原理我们希望实现鼠标移动至树型结构的结点上就显示按钮,移出就隐藏按钮实现原理:是通过@mouseenter和@mouseleave两个属性来控制鼠标hover的效果,再配合v-sho

    2022年7月29日
    15

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号