【大数据应用开发】大数据的概念[通俗易懂]

【大数据应用开发】大数据的概念[通俗易懂]一.大数据的概念维基百科定义:大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。二.大数据4V特征Volume:体量巨大Velocity:处理速度快Variety:类型繁多(结构化,半结构化,非结构化)Value:价值密度低三.大数据主流技术数据采集预处理flume可以进行流式日志数据的收集sqoop可以交互关系型数据库,进行导入导…

大家好,又见面了,我是你们的朋友全栈君。

一. 大数据的概念

维基百科定义:
数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。

二. 大数据4V特征

  • Volume:体量巨大
  • Velocity:处理速度快
  • Variety:类型繁多(结构化,半结构化,非结构化)
  • Value:价值密度低

三. 大数据主流技术

  • 数据采集预处理
  1. flume可以进行流式日志数据的收集
  2. sqoop可以交互关系型数据库,进行导入导出数据
  3. 使用爬虫技术,可以在网上爬取海量网页数据
  • 数据存储与管理
    大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
  • 数据处理与分析
    利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。

四. 大数据应用

在这里插入图片描述

五. 场景化解决方案:

1. 离线批处理

1.1 概念:

离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。

1.2 特点:

  • 处理时间要求不高
  • 处理数据量巨大
  • 处理数据格式多样
  • 占用计算存储资源多

1.3 流程图

在这里插入图片描述

2. 实时检索

2.1 概念:

实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。

2.2 核心诉求

  • 检索性能要求高
  • 高并发查询
  • 数据量大
  • 支持结构化和非结构化
  • 高效的数据加载
  • 支持图检索

2.3流程图

在这里插入图片描述

3. 实时流处理

3.1 概念:

实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。

3.2 诉求:

  • 处理数据快
  • 高吞吐量
  • 抗震性强
  • 可靠性高
  • 水平扩展
  • 多数据源支持
  • 数据权限和资源隔离
  • 第三方工具对接

3.3 流程图

在这里插入图片描述

4.融合数仓

4.1概念:

在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

4.2诉求

  • 数据统一存储
  • 减少数据孤岛和冗余
  • 一集成(旧业务和新业务可以无缝集成)
  • 大集群

4.3流程图

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135917.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java学习——Java 动态代理机制分析

    越学越觉得自己不懂的越多!java的动态代理学习资料整理:Java 动态代理机制分析及扩展,第 1 部分: https://www.ibm.com/developerworks/cn/java/j-lo-proxy1/Java 动态代理作用是什么? https://www.zhihu.com/question/20794107Java动态代理机制详解(JDK 和CGLIB,Javassist,A

    2022年2月26日
    32
  • Android peferenceActivity 自己定义标题简单方法

    Android peferenceActivity 自己定义标题简单方法

    2022年3月12日
    38
  • Pythonista中文文档[通俗易懂]

    Pythonista中文文档[通俗易懂]本文档为Pythonista3.3版本官方文档的汉化版,主要为帮助不是很擅长英文的朋友进行阅读学习。本文档主要针对Pythonista中iOS独有的模块进行汉化,第三方模块仅提及一下以便知晓目前Py

    2022年8月6日
    9
  • 字与字节的关系_一个比特等于多少字节

    字与字节的关系_一个比特等于多少字节之前一直认为1个字等于2个字节,刚在书中发现有个说法说,4个字节作为一个字,与之前记忆的1个字等于2个字节相违背,这才“较真”好好查了下相关的概念。基本概念字:计算机进行数据处理时,一次存取、加工和

    2022年8月2日
    3
  • Latex 安装及学习教程「建议收藏」

    Latex 安装及学习教程「建议收藏」Latex下载安装及使用教程一介绍(一)关于LaTeX和CTeX二TexLive2018+WinEdt10.3安装(一)基本安装(二)使用介绍(三)完整的入门资源:一介绍(一)关于LaTeX和CTeXLatex是一种排版系统。TeX是LaTeX的基石,LaTeX建立在TeX之上。但是,与Word相比,LaTeX显得不那么友好,于是主要从安装开始给大家介绍一下。希…

    2022年4月30日
    42
  • 在线涂改图片 php,php网站怎么修改图片[通俗易懂]

    在线涂改图片 php,php网站怎么修改图片[通俗易懂]主要还是用到php中的GD库中的函数upload_image.php,主要是一个上传控件,用来选择图片YourusernameUploadimage**Acceptableimageformatsinclude:GIF,JPG/JPEGandPNG.ImageCaption然后是上传和处理图片的逻辑check_image.php…

    2022年9月7日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号