日志分析(php+nosql+rsync+crontable)

日志分析(php+nosql+rsync+crontable)

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。

是不是经常要分析用户的行为?是不是经常遇到多台server上传的日志一起分析?是不是对数据统计的间隔时间要求非常短?还有木有由于日志文件过大,而须要分块处理?

1、说明一点在日志写入的时候必须依照一种严格的格式,这样在做解析的时候,才好分割。比方 gameid:123  gameid:2333。分割统一标准即可。

2、在生成日志的文件名称的时候也要依照一定规则,在分析的时候,正則表達式好匹配,如 serverhostname_date.log  这样在匹配的时候 仅仅须要 glob(*—date.log); //glob 见php函数手冊,寻找与模式匹配的文件路径。

3、为什么要用nosql?事实上project师不是只局限于知道怎么实现,而是要多思考什么样的业务用什么样的工具来解决。非关系型数据非常适合这样的,日志中经常添�新的行为,你用key-value的方式,不须要日志新增了要分析的行为,你就得手动改变你程序的配置,这样我个人认为不是太好。~假如用mysql,你纵向设计数据库,

结构: id gameid count createtime

          1   1001    3000  2013-03-23  12:22:21

          2   1002   2222   2013-03-23  12:22:21

        ………………

这样设计的话那么不会由于新增gameid来改动数据表,这样有什么坏处?那就是每次插入数据非常多,假如30秒插入一次,一次插入30个游戏的统计值,那么一天的增量  2*30*60*24 = 86400 条数据,这样显然不合理。

那么横向设计,一次插入一条数据。

id gameid_1001 gameid_1002 gameid_1003 …… createtime 

1  3000             2222             40000               2013-03-23 09:08:56

2  4000             1800             4000                2013-03-23 09:09:20

……

 这种坏处是 每次新增了游戏ID 那么就得改变数据表结构,加字段,当然你牛逼点的能够所实用程序来实现,可是这样我认为不太好。

mongo中有这个内嵌文档,非常爽。推荐使用hadoop

存储结构例如以下

        +{

            “_id”:3e3ess3sazxcdsdsfdf,

            “createtime”:”2013-03-23 09:13:02″,

            “data”:{

                    “gameid_1001”: 2000,

                    “gameid_1002”: 3000,

                    ……

                      }


        }

一次仅仅插入一条数据,新增游戏类型不须要做不论什么改变,perfect~

4、为什么要用rsync?将多台server的日志同步到一个文件夹下,一起处理,比較方便。

5、须要用到的几个函数,glob, fopen,fget,isset,explode

程序最好不要写得非常死板,

 批量读入日志文件

$sLogfileName = ‘/path/../*_date.log’;

$aLogfileName = glop($sLogfileName); // 匹配要处理的日志文件,读入数组中。

……

fopen();

while() //用while循环,处理完文件里的一行数据再去文件里取,假设用foreach一次读入数组,内存会溢出。

{

……

}

……

$aCountResult = array();

$iNum = 100;

if(isset($aCountResult[$iGameId]))

        $aCountResult[$iGameId] = (int)$aCountResult[$iGameId] + $iNum;

else

        $aCountResult[$iGameId] = $iNum;

……

统计完插入。。

然后添�计划程序中,ok。。

主要还是不同的业务用不同的方法解决。

@update 2013-3-25 21:31:45

在日志分析中 \n 是一个非常重要的分割符,避免防止内存溢出,不要以 \n

EOF 作为分割符,同事要严格依照日志标准格式写入,这样在解析的时候比較好解析。用fgets方式获取,不能一次读入内存中。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/118964.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • form表单提交后如何弹出对话框_ajax提交form表单数据

    form表单提交后如何弹出对话框_ajax提交form表单数据定义一个函数:functionsumbit_sure(){vargnl=confirm(“确定要提交?”);if(gnl==true){returntrue;}else{returnfalse;}}然后在form的onsubmit里调用就可以了:

    2022年10月7日
    4
  • js——promise用法

    js——promise用法.1.promise基本用法<script>constpromise=newPromise((resolve,reject)=>{console.log(1);resolve(5);console.log(2)}).then(val=>{console.log(val);});pro

    2022年6月15日
    24
  • Java基础算法详解

    Java基础算法详解查找和排序算法是算法的入门知识,其经典思想可以用于很多算法当中。因为其实现代码较短,应用较常见。所以在面试中经常会问到排序算法及其相关的问题。但万变不离其宗,只要熟悉了思想,灵活运用也不是难事。一般在面试中最常考的是快速排序和归并排序,并且经常有面试官要求现场写出这两种排序的代码。对这两种排序的代码一定要信手拈来才行。还有插入排序、冒泡排序、堆排序、基数排序、桶排序等。面试官对于这些排序可能会…

    2022年7月8日
    18
  • CTF逆向-Upx脱壳攻防世界simple unpack

    CTF逆向-Upx脱壳攻防世界simple unpack文章目录前言UPX技术原理应用范围软件使用CTF实战程序查壳UPX脱壳总结前言加壳软件分两类:压缩壳:压缩的目的是减少程序体积,如ASPack、UPX、PECompact等;加密壳:加密是为了防止程序被反编译(反汇编)、跟踪和调试,如ASProtect、Armadillo、EXECryptor、Themida、VMProtect。壳的存在会让我们找不到程序的真实入口点,从而不能正确的分析反汇编程序,也就对程序起到了一定的保护作用。加密壳的基本思路:将原本程序的PE相关代码复制

    2022年7月19日
    41
  • zookeeper入门教程_ZooKeeper的事件机制原理

    zookeeper入门教程_ZooKeeper的事件机制原理zookeeperwatcher架构zookeeper 配置中心分布式ID分布式锁集群搭建数据一致性协议:zab协议Zookeeper Leader选举Observer角色及其配置watcher架构客户端首先将Watcher注册到服务器,同时将Watch对象保存到客户端的Watch管理器中。当Zookeeper服务器监听到的数据发生变化时,服务器会通知客户端,接着客户端的Watch管理器会触发相关的Watcher来回调响应处理逻辑,从而完成整体的数据发布/订阅流程。javaAPIJava

    2022年8月9日
    7
  • Android蓝牙开发—经典蓝牙详细开发流程[通俗易懂]

    Android蓝牙开发—经典蓝牙详细开发流程[通俗易懂]    Android蓝牙开发前,首先要区分是经典蓝牙开发还是BLE(低功耗)蓝牙开发,它们的开发是有区别的,如果还分不清经典蓝牙和BLE(低功耗)蓝牙的小伙伴,可以先看Android蓝牙开发—经典蓝牙和BLE(低功耗)蓝牙的区别本文是针对经典蓝牙开发的,如果是BLE(低功耗)蓝牙开发,可以看Android蓝牙开发—BLE(低功耗)蓝牙详细开发流程开发流程开启蓝牙 扫描蓝牙 …

    2022年6月15日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号