创建Google网站地图Sitemap.xml建议收藏

Sitemap.xml是google搞出来的,也就是网站地图,不过这个网站地图是用xml写的,而且要按google的标准来写,并且要将写出来的这个文件sitemap.xml上传到自己的服务器空间中去。

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

全栈程序员社区此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“全栈程序员社区”或者“www_javaforall_cn”或者微信扫描右侧二维码都可以关注本站微信公众号。

Sitemap.xml是google搞出来的,也就是网站地图,不过这个网站地图是用xml写的,而且要按google的标准来写,并且要将写出来的这个文件sitemap.xml上传到自己的服务器空间中去。目前,Google, Yahoo, MSN都已经声明支持这种格式,Baidu还没有声明支持,但估计走这一步也是大势所趋。这将是向众多搜索引擎提供你网站信息的一种很好的方法。

  提交sitemap一是有利于搜索抓取一些正常抓取过程中无法抓取的网址,比如动态网页,包含大量AJAX的网页或者flash的页面。二是为搜索蜘蛛指明“工作方向”。Sitemap就是你网站上页面的列表,googlebot就按照这个去一个个的抓取收录页面,显然比它自己去找会效率高,而且要全。Google网站上有完整的关于sitemap.xml的详细说明:

  http://www.google.com/support/webmasters/bin/answer.py?answer=40318&hl=zh_CN

1. Sitemap.XML 的格式

完整格式如下:

 1 <?xml version="1.0" encoding="UTF-8"?>
 2 <urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
 3        <url>
 4               <loc>http://keleyi.com</loc>
 5               <lastmod>2013-07-17</lastmod>
 6               <changefreq>daily</changefreq>
 7               <priority>1.0</priority>
 8        </url>
 9        <url>
10               <loc> http://www.cnblogs.com/roucheng/search2.asp?id=32003044&sq=1</loc>
11               <lastmod>2013-07-17</lastmod>
12               <changefreq>weekly</changefreq>
13               <priority>0.9</priority>
14        </url>
15 16 17 </urlset>

下面,对以上标签分别加以解释

a)       <?xml version=”1.0″ encoding=”UTF-8″?>

<urlset xmlns=”http://www.google.com/schemas/sitemap/0.84″ >

这两行就相当于网页文件中的<html>标签一样的作用。不必管这两行什么意思,照抄即可。

切记:一个字符也不能错,即使多一个空格,google网站采集时也会报错。另外,千万别忘了在文件的末尾加上</urlset>标签。

  b) url:每个标签包含一个网页地址,是以下标签的父标签。

  c) http://keleyi.com/a/bjad/nf86w2dv.htm

  这里是页面链接地址,也就是你希望蜘蛛访问的地址。

  切记:在地址中出现的某些特殊字符需要使用转义字符,否则,google也会报错。最典型的就是 & 号,经常在动态网址中出现,在提交地址中必须写成 & 如:提交http://www.cnblogs.com/roucheng/search2.asp?id=32003044&sq=1,google管理员工具就会报错,而改为 http://www.cnblogs.com/roucheng/search2.asp?id=32003044&sq=1提交后就没有问题了。我看到网上有人说sitemap.xml只能提交一个参数的网页的说法,其实多半是因为没有使用转义字符而导致出错的。其他的转义字符就不一一列出了,大家可以在网上查。

  d) lastmod:页面最后修改时间

  这个很重要。Google的机器人会在索引此链接前先和上次索引记录的最后更新时间进行 比较,如果时间一样就会跳过不再索引。所以如果你的链接内容基于上次Google索引时的内容有所改变,应该更新该时间,让Google下次索引时会重新 对该链接内容进行分析和提取关键字。这里必须用ISO 8601中指定的时间格式进行描述,格式化的时间格式如下:

  年:YYYY(2008)

  年和月:YYYY-MM(2008-06)

  年月日:YYYY-MM-DD(2008-06-04)

  年月日小时分钟:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)

  年月日小时分钟秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)

  这里需注意的是TZD,TZD指定就是本地时间区域标记,像中国就是+08:00了

  切记:其他格式可能引起出错,比如将2008-08-08 写成2008-8-8就会出问题。

  e) changefreq:页面内容更新频率。

  这里可以用来描述的单词共这几个:”always”, “hourly”, “daily”, “weekly”, “monthly”, “yearly”,具体含义我就不用解释了吧,光看单词的意思就明白了。

  f) priority:相对于其他页面的优先权

  定于0.0 – 1.0之间 。

  切记:建议将各类网页根据重要性给出不同的数值,以方便蜘蛛的采集,不要耍小聪明全部写1.0,google管理工具会报错的。

2. Sitemap.xml制作方式

  制作方式无非两种,自动方式和手动方式。

  自动方式一般使用生成工具自动生成,只需输入自己的网址,就可以得到完整的xml文件。这种方式一般适用于静态网站,在此不再赘述。但需要提醒的是,网上的工具良莠不齐,生成的文件经常有错误,不一定能通过google的校验,使用者需认真辨别。

  手工方式则是由站长手工填写或写程序完成均可,代码很简单,大家可以到网上查找。

3. 提交

  Sitemap.xml制作完成后,就需要将xml文件提交到相关搜索引擎。

  Google提交网址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN

  Yahoo提交网址:http://sitemap.cn.yahoo.com/

  提交后,一般在几个小时之内,系统就开始下载处理了。

4. Sitemap.xml的校验

  至于你的网站地图是否符合标准,最方便的手段就是使用google的管理员工具了。

  在他下载你的sitemap.xml后几天内,这个工具就会将详细的分析结果反馈回来,包括:sitemap.xml中包含了多少地址,google已将多少地址加入索引,sitemap.xml中出现了哪些错误,甚至蜘蛛采集过程中遇到的各种问题,比如哪些网页有404,500错误都会详细的罗列出来,非常方便。

  如果你提交的xml文件一切无误,那么接下来,你就是等着让它的搜索蜘蛛来爬了,sitemap的文件告知了文件更新的频率,这样搜索蜘蛛来得更勤快,页面被收录当然也就更快。

  5分半钟:Google网站地图 Sitemap.xml

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120728.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 双管显示

    双管显示

    2021年8月15日
    58
  • 为什么我用LaTeX排版的那个双引号编译出来很奇怪,如下图,怎么做才能出现对的?[通俗易懂]

    为什么我用LaTeX排版的那个双引号编译出来很奇怪,如下图,怎么做才能出现对的?[通俗易懂]为什么我用LaTeX排版的那个双引号编译出来很奇怪,如下图,怎么做才能出现对的?)我是个LaTeX小白,百度了很久,没有解决办法,求救。引号是在英文输入法下输的,左引号连按两次esc下边那个键,右引号连按两次enter左边那个键。…

    2022年6月25日
    29
  • 使用Burpsuite进行抓包和改包

    使用Burpsuite进行抓包和改包一 建立 burpsuite 和浏览器的连接 1 打开 burpsuite 工具 在 proxy 中的 Option 下 看到对应的 Interface 为 127 0 0 1 8080 与浏览器代理设置相同端口 保存 2 在浏览器中的 InternetOpti 中设置相同的 IP 地址以及端口号 3 设置好之后 就可以开始抓包了 在 burpsuite 中的 Proxy 中的 Intercept 中进行抓包 4 在浏览器中输入自己的用户名 Yolanda 相当在浏览器端发送请求这样 burpsuite 端就可以抓到浏览器端的请求消息二

    2025年6月2日
    1
  • c++中无法打开源文件_无法打开源文件iostream

    c++中无法打开源文件_无法打开源文件iostream一、无法打开文件“xxx.lib”出现这种错误一般为①未添加xxx.lib库文件②库添加后,路径不对,找不到对应的库文件路径解决方案:先查看库文件是否已经添加若未添加,右击项目->属性->链接器->输入;将库文件加入即可如果库文件已经添加,仍然报错,此时需要查看生成的库文件的路径了。先找到生成库文件的路径,右击项目->属性->常规->查看输出目录是否与生成的库文件的路径是否匹配,若不匹配,修改路径即可。二、无法打开源文件说明是库的附加包含路径有问题

    2022年10月14日
    4
  • Quartus II 13.0安装和激活成功教程教程

    Quartus II 13.0安装和激活成功教程教程QuartusII软件是学习FPGA非常重要的软件,下面来介绍一下13.0版本的安装及激活成功教程教程:1、安装包介绍大家下载的完整版的QuartusII13.0软件应包含以下三个部分:请大家选择第三个“Quartus-13.0.0.156-windows.tar”压缩文件,即为我们的QuartusII13.0的主安装包,这是一个压缩文件,安装前需要解压。该包包含了开发FP…

    2022年10月16日
    3
  • hostapd_acs 源码分析

    hostapd_acs 源码分析在自动信道文件中。函数处理流程进行:Main()../hostapd/main.c+552hostapd_wpa_event()../src/ap/drv_callbacks.c+1017在该函数中通过接收事件是否为EVENT_CHANNEL_LIST_CHANGED,触…

    2022年5月21日
    115

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号