详解网站WEB日志格式

详解网站WEB日志格式WEB日志是网站的WEB服务处理程序,根据一定的规范生成的ASCII文本。它主要记录了网站访问记录数据内容,是网站分析和网站数据仓库的数据基础来源,而网站分析和数据分析也将对SEO产生一定的影响,所以了解WEB日志的格式和组成将有利于我们更好地进行网站数据的收集、处理和分析,从而更好的进行网站优化。一、WEB日志格式分类目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格

大家好,又见面了,我是你们的朋友全栈君。WEB日志是网站的WEB服务处理程序,根据一定的规范生成的ASCII文本。它主要记录了网站访问记录数据内容,是网站分析和网站数据仓库的数据基础来源,而网站分析和数据分析也将对SEO产生一定的影响,所以了解WEB日志的格式和组成将有利于我们更好地进行网站数据的收集、处理和分析,从而更好的进行网站优化。


一、WEB日志格式分类


目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格式,另一类是IIS的W3C日志格式。NCSA格式又分为NCSA普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF)及基于自定义类型的Apache日志格式;而W3C扩展日志格式(ExLF)具备了更为丰富的输出信息,主要是微软IIS(Internet Information Services)中应用。


二、NCSA扩展WEB日志格式(ECLF)


下面是一个最常见的基于NCSA扩展WEB日志格式(ECLF)的Apache日志样例:


218.161.64.101 – – [22/Aug/2011:09:51:46 +0800] “GET /reference-and-source/weblog-format/ HTTP/1.1″ 202 6326 ”http :/ /www .google.cn/search?q=friend” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”


这个日志可以解读为:来自”
http://www.google.cn/search?q=friend
“的访客,使用IE6.0浏览器,应用HTTP/1.1协议,在22/Aug/2011:09:51:46,访问(GET)了218.161.64.101主机的 /reference-and-source/weblog-format/,访问成功,得到6326字节数据。


可以看到这个日志主要由以下几个部分组成:


访问主机(remotehost):显示主机的IP地址或者已解析的域名。


标识符(Ident):由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能。


授权用户(authuser):用于记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的。


日期时间(date):一般的格式形如[22/Feb/2010:09:51:46 +0800],即[日期/月份/年份:小时:分钟:秒钟 时区],占用的的字符位数也基本固定。


请求(request):即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括三种请求类型(METHOD),主要包括GET/POST/HEAD这三种。


请求资源(RESOURCE):显示的是相应资源的URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS等资源;


协议版本号(PROTOCOL):显示协议及版本信息,通常是HTTP/1.1或HTTP/1.0。


状态码(status):用于表示服务器的响应状态,通常1xx的状态码表示继续消息;2xx表示请求成功;3xx表示请求的重定向;4xx表示客户端错误;5xx表示服务器错误。


传输字节数(bytes):即该次请求中一共传输的字节数。


来源页面(referrer):用于表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空。上例中来源页面是google,即用户从google搜索的结果中点击进入。


用户代理(agent):用于显示用户的详细信息,包括IP、OS、Bowser等。


三、W3C扩展WEB日志


下面是一段常见的IIS生产的W3C扩展WEB日志


2011-09-01 16:02:22 GET /Enterprise/detail.asp 70.25.29.53 http:/ /www .example.com/searchout.asp 202 17735 369 4656


这个日志可以解读为:IP是70.25.29.53,来自”
http://www.example.com/searchout.asp
“的访客,在2011-09-01 16:02:22,访问(GET)了主机的/Enterprise/detail.asp,访问成功,得到17735字节数据。


日期:date 动作发生时的日期。


时间:time 动作发生时的时间(默认为UTC标准)。


客户端IP地址:c-ip 访问服务器的客户端IP地址。


用户名:cs-username 通过身份验证的访问服务器的用户名。不包括匿名用户(用‘-’表示)。


服务名:s-sitename 客户所访问的Internet服务名以及实例号。


服务器名:s-computername 产生日志条目的服务器的名字。


服务器IP 地址:s-ip 产生日志条目的服务器的IP地址。


服务器端口:s-port 服务端提供服务的传输层端口。


方法:cs-method 客户端执行的行为(主要是GET与POST行为)。


URI Stem:cs-uri-stem 被访问的资源,如Default.asp等。


URI Query:cs-uri-query 客户端提交的参数(包括GET与POST行为)。


协议状态:sc-status 用HTTP或者FTP术语所描述的、行为执行后的返回状态。


Win32状态:sc-win32-status 用Microsoft Windows的术语所描述的动作状态。


发送字节数:sc-bytes 服务端发送给客户端的字节数。


接受字节数:cs-bytes 服务端从客户端接收到的字节数。


花费时间:time-taken 执行此次行为所消耗的时间,以毫秒为单位。


协议版本:cs-version 客户端所用的协议(HTTP、FTP)版本。对HTTP协议来说是HTTP 1.0或者HTTP 1.1。


主机:cs-host 客户端的HTTP报头(host header)信息。


用户代理:cs(User-Agent) 客户端所用的浏览器版本信息。


Cookie:cs(Cookie) 发送或者接受到的cookie内容。


Referrer:cs(Referer) 用户浏览的前一个网址,当前网址是从该网址链接过来的。


协议底层状态:sc-substatus 协议底层状态的一些错误信息。

WEB日志记录了网站访客的详细情况,我们可以通过日志分析工具来分析网民对网站的浏览情况,但在实际应用中,我们更多的是采用一些第三方的网站统计工具来监控访客对网站的访问情况。对于WEB日志,我们需要重点关注的是各大搜索引擎蜘蛛对网站的抓取情况,这才是对我们SEO工作最直接的影响因素。


http://www.xymyeah.com/1302.html


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144824.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月18日 下午5:20
下一篇 2022年5月18日 下午5:20


相关推荐

  • Bootstrap 之Table样式[通俗易懂]

    Bootstrap 之Table样式[通俗易懂]将标签添加class=‘table’类后的样式Table样式编号姓名年龄001郭靖25002黄蓉23003杨过24我们可以看到,Tabl

    2026年2月1日
    6
  • phpstorm激活码2021.3月最新在线激活

    第1章 Django入门到进阶-更适合Python小白的系统课程课程简介和开发环境配置~第2章 Django中的路由与视图本章主要讲解Django中视图和路由器的创建,并深入讲解路由器中地址的参数定义phpstorm激活码20213月最新在线激活,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月13日
    43
  • zipfile压缩文件夹_bad zip file

    zipfile压缩文件夹_bad zip fileimportzipfiledefzipDir(dirpath,outFULLName):zip=zipfile.ZipFile(outFULLName,’w’,zipfile.ZIP_DEFLATED)forpath,dirnames,filenamesinos.walk(dirpath):fpath=path.replace(dirpath,””)forfilenameinfilenames:zip.wri

    2025年12月12日
    5
  • git github gitlib gitlab分别是什么,有什么区别?

    git github gitlib gitlab分别是什么,有什么区别?git 是一种版本控制系统 是一个命令 是一种工具 类似于 SVNgitlib 是用于实现 git 功能的开发库 github 是一个基于 git 实现的在线代码仓库 包含一个网站界面 向互联网开放 gitlab 是一个基于 git 实现的在线代码仓库软件 你可以用 gitlab 自己搭建一个类似于 github 一样的系统 一般用于在企业 学校等内部网络搭建 git 私服 可以看作是一个简单的 github 参考

    2026年3月16日
    3
  • android开机动画 制作工具,android开机动画制作

    android开机动画 制作工具,android开机动画制作本帖最后由nihao200823于2017-1-1220:38编辑android开机动画制作与播放原理简介谁都想拥有一个华丽漂亮的开机动画,这让人心情舒畅,android是怎么来实现的?怎么制作一个自己的开机动画?这里揭开android开机动画的神秘面纱。1、制作开关机动画1.1开机动画的位置system/media/bootanimation.zip,要修改开机动画就是修改boota…

    2022年5月14日
    46
  • 查看linux操作系统版本

    查看linux操作系统版本

    2021年7月18日
    70

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号