日志分析(php+nosql+rsync+crontable)

日志分析(php+nosql+rsync+crontable)

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。

是不是经常要分析用户的行为?是不是经常遇到多台server上传的日志一起分析?是不是对数据统计的间隔时间要求非常短?还有木有由于日志文件过大,而须要分块处理?

1、说明一点在日志写入的时候必须依照一种严格的格式,这样在做解析的时候,才好分割。比方 gameid:123  gameid:2333。分割统一标准即可。

2、在生成日志的文件名称的时候也要依照一定规则,在分析的时候,正則表達式好匹配,如 serverhostname_date.log  这样在匹配的时候 仅仅须要 glob(*—date.log); //glob 见php函数手冊,寻找与模式匹配的文件路径。

3、为什么要用nosql?事实上project师不是只局限于知道怎么实现,而是要多思考什么样的业务用什么样的工具来解决。非关系型数据非常适合这样的,日志中经常添�新的行为,你用key-value的方式,不须要日志新增了要分析的行为,你就得手动改变你程序的配置,这样我个人认为不是太好。~假如用mysql,你纵向设计数据库,

结构: id gameid count createtime

          1   1001    3000  2013-03-23  12:22:21

          2   1002   2222   2013-03-23  12:22:21

        ………………

这样设计的话那么不会由于新增gameid来改动数据表,这样有什么坏处?那就是每次插入数据非常多,假如30秒插入一次,一次插入30个游戏的统计值,那么一天的增量  2*30*60*24 = 86400 条数据,这样显然不合理。

那么横向设计,一次插入一条数据。

id gameid_1001 gameid_1002 gameid_1003 …… createtime 

1  3000             2222             40000               2013-03-23 09:08:56

2  4000             1800             4000                2013-03-23 09:09:20

……

 这种坏处是 每次新增了游戏ID 那么就得改变数据表结构,加字段,当然你牛逼点的能够所实用程序来实现,可是这样我认为不太好。

mongo中有这个内嵌文档,非常爽。推荐使用hadoop

存储结构例如以下

        +{

            “_id”:3e3ess3sazxcdsdsfdf,

            “createtime”:”2013-03-23 09:13:02″,

            “data”:{

                    “gameid_1001”: 2000,

                    “gameid_1002”: 3000,

                    ……

                      }


        }

一次仅仅插入一条数据,新增游戏类型不须要做不论什么改变,perfect~

4、为什么要用rsync?将多台server的日志同步到一个文件夹下,一起处理,比較方便。

5、须要用到的几个函数,glob, fopen,fget,isset,explode

程序最好不要写得非常死板,

 批量读入日志文件

$sLogfileName = ‘/path/../*_date.log’;

$aLogfileName = glop($sLogfileName); // 匹配要处理的日志文件,读入数组中。

……

fopen();

while() //用while循环,处理完文件里的一行数据再去文件里取,假设用foreach一次读入数组,内存会溢出。

{

……

}

……

$aCountResult = array();

$iNum = 100;

if(isset($aCountResult[$iGameId]))

        $aCountResult[$iGameId] = (int)$aCountResult[$iGameId] + $iNum;

else

        $aCountResult[$iGameId] = $iNum;

……

统计完插入。。

然后添�计划程序中,ok。。

主要还是不同的业务用不同的方法解决。

@update 2013-3-25 21:31:45

在日志分析中 \n 是一个非常重要的分割符,避免防止内存溢出,不要以 \n

EOF 作为分割符,同事要严格依照日志标准格式写入,这样在解析的时候比較好解析。用fgets方式获取,不能一次读入内存中。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/118964.html原文链接:https://javaforall.net

(0)
上一篇 2021年11月28日 下午5:00
下一篇 2021年11月28日 下午6:00


相关推荐

  • postman使用方法

    postman使用方法一 postman 界面功能介绍 1 工具栏 New 新建 可以新建 Request 请求 Collection 请求集 环境等等 Import 导入 可以导入别人导出的请求集 Runner 运行一个请求集 批量执行 Invite 邀请 需要注册 邀请进行协作 同步图标 需要注册 同步你的项目到云端 抓包图标 抓包 捕获请求 用于开启 Postman 代理 手动设置代理 或手机代理 后可抓包 录制请求设置图标 Postman 设置功能消息图标 官方及协助消息收藏图标 我的

    2026年3月16日
    2
  • 【PCIe】配置空间

    【PCIe】配置空间介绍PCI/PCIe配置空间。

    2022年6月17日
    26
  • outputstreamwriter用法_floating power object

    outputstreamwriter用法_floating power object写这个类的原因,网上有很多介绍这两个类的,InputStreamReader类的使用,没有任何异议,而OutputStreamWriter,看了网的帖子和博客说的都不是很清楚,所以小皮虾好好研究了一下OutputStreamWriter类,所以下面的总结有不对之处,欢迎指正!api类中解释:InputStreamReader是字节流通向字符流的桥梁,将字节流转换为字符流

    2025年8月28日
    13
  • java学习——Java 动态代理机制分析

    越学越觉得自己不懂的越多!java的动态代理学习资料整理:Java 动态代理机制分析及扩展,第 1 部分: https://www.ibm.com/developerworks/cn/java/j-lo-proxy1/Java 动态代理作用是什么? https://www.zhihu.com/question/20794107Java动态代理机制详解(JDK 和CGLIB,Javassist,A

    2022年2月26日
    39
  • 操作系统的功能

    操作系统的功能

    2021年11月29日
    49
  • 【JavaScript】this指向经典面试题(超详细)

    【JavaScript】this指向经典面试题(超详细)还会担心被面试到有关 this 指向的问题嘛 那还等什么 进来带你学习你看不懂的 this 指向面试题

    2026年3月18日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号