大数据分析系统[通俗易懂]

大数据分析系统[通俗易懂]1. 概念、分类数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中。系统内部对所有的原始数据通过一系列处理转换之后,存储到数据仓库的基础库中;然后,通过业务需要进行一系列的数据转换到相应的数据集市,供其他上层数据应用组件进行专题分析或者展示。根据数据的流转流程,一般会有以下几个模块:数据收集(采集)、数据存储、数据计算、数据分析、数据展示等等。当然也会有…

大家好,又见面了,我是你们的朋友全栈君。

1. 概念、分类

数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中。系统内部对所有的原始数据通过一系列处理转换之后,存储到数据仓库的基础库中;然后,通过业务需要进行一系列的数据转换到相应的数据集市,供其他上层数据应用组件进行专题分析或者展示。

根据数据的流转流程,一般会有以下几个模块:数据收集(采集)、数据存储、数据计算、数据分析、数据展示等等。当然也会有在这基础上进行相应变化的系统模型。

按照数据分析的时效性,我们一般会把大数据分析系统分为实时、离线两种类型。实时数据分析系统在时效上有强烈的保证,数据是实时流动的,相应的一些分析情况也是实时的。而离线数据分析系统更多的是对已有的数据进行分析,时效性上的要求会相对低一点。时效性的标准都是以人可以接受来划分的。

 

2. 网站流量日志数据分析系统

大数据分析系统[通俗易懂]

2.1. 系统的意义

网站流量数据统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。

Ø 技术上

可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如

1、辅助改进网络的拓扑设计,提高性能

2、在有高度相关性的节点之间安排快速有效的访问路径

3、帮助企业更好地设计网站主页和安排网页内容

Ø 业务上

1、帮助企业改善市场营销决策,如把广告放在适当的Web页面上。

2、优化页面及业务流程设计,提高流量转化率。

3、帮助企业更好地根据客户的兴趣来安排内容。

4、帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。

终极目标是:

改善网站的运营,获取更高投资回报率(ROI)。也就是赚更多的钱。

2.2. 背景知识Web访问日志

访问日志指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,打开了哪一个页面,采用了哪个搜索项、总体会话时间等。而所有这些信息都可通过网站日志保存下来。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。

日志的生成渠道分为以下两种:

一是:web服务器软件(httpd、nginx、tomcat)自带的日志记录功能,如Nginx的access.log日志;

二是:自定义采集用户行为数据,通过在页面嵌入自定义的javascript代码来获取用户的访问行为(比如鼠标悬停的位置,点击的页面组件等),然后通过ajax请求到后台记录日志,这种方式所能采集的信息会更加全面。

在实际操作中,有以下几个方面的数据可以自定义的采集:

        系统特征:比如所采用的操作系统、浏览器、域名和访问速度等。

访问特征:包括停留时间、点击的URL、所点击的“页面标签<a>”及标签的

                        属性等。

        来源特征:包括来访URL,来访IP等。

        产品特征:包括所访问的产品编号、产品类别、产品颜色、产品价格、产品利润、产品数量和特价等级等。

以电商某东为例,其自定义采集的数据日志格式如下:

GET /log.gif?t=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600×900$ul=zh-cn$cs=GBK$dt=【云南白药套装】云南白药 牙膏 180g×3 (留兰香型)【行情 报价 价格 评测】-京东$hn=item.jd.com$fl=16.0r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411 HTTP/1.1

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140514.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月8日 下午2:20
下一篇 2022年5月8日 下午3:00


相关推荐

  • CSS 自动换行样式

    CSS 自动换行样式移动端经常会遇到屏幕被撑开的情况 下面是一些解决办法 方法一 你定死表格的宽度 即给表格一个宽度值 是数值 不是百分比 nbsp nbsp 方法二 强制不换行 div white space 不换行 normal 默认 nowrap 强制在同一行内显示所有文本 直到文本结束或者遭遇 br 对象 white space nowrap 方法三 自动

    2026年1月31日
    3
  • executenonquery报错_sql2008和mysql

    executenonquery报错_sql2008和mysqlExecuteNonQuery()方法主要用户更新数据,通常它使用Update,Insert,Delete语句来操作,其方法返回值意义:对于Update,Insert,Delete语句执行成功是返回值为该命令所影响的行数,如果影响的行数为0时返回的值为0,如果数据操作回滚得话返回值为-1,对于这种更新操作用我们平时所用的是否大于0的判断操作应该没有问题而且比较好,但是对于其他的操作如对数据…

    2025年10月30日
    3
  • nginx与uWSGI[通俗易懂]

    nginx与uWSGI[通俗易懂]今天同事问了我一个问题,nginx和uWSGI的区别是啥?我当时答出了反向代理和静态文件,后来聊到了负载均衡,所以好好查了下两者的区别。首先来了解几个概念:WSGIWSGI的全称是WebServerGatewayInterface(Web服务器网关接口),它不是服务器、python模块、框架、API或者任何软件,只是一种描述web服务器(如nginx,uWSGI等服务器)如何与…

    2025年10月28日
    6
  • hostapd.conf配置文档「建议收藏」

    hostapd.conf配置文档「建议收藏」#####hostapdconfigurationfile###############################################Emptylinesandlinesstartingwith#areignored#APnetdevicename(without’ap’postfix,i.e.,wlan0useswl

    2022年5月21日
    41
  • win7下jdk安装环境变量配置

    win7下jdk安装环境变量配置

    2021年12月6日
    53
  • Nano Banana Pro实战全解:从原理到应用的完整技术指南

    Nano Banana Pro实战全解:从原理到应用的完整技术指南

    2026年3月13日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号