【大数据应用开发】大数据的概念[通俗易懂]

【大数据应用开发】大数据的概念[通俗易懂]一.大数据的概念维基百科定义:大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。二.大数据4V特征Volume:体量巨大Velocity:处理速度快Variety:类型繁多(结构化,半结构化,非结构化)Value:价值密度低三.大数据主流技术数据采集预处理flume可以进行流式日志数据的收集sqoop可以交互关系型数据库,进行导入导…

大家好,又见面了,我是你们的朋友全栈君。

一. 大数据的概念

维基百科定义:
数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。

二. 大数据4V特征

  • Volume:体量巨大
  • Velocity:处理速度快
  • Variety:类型繁多(结构化,半结构化,非结构化)
  • Value:价值密度低

三. 大数据主流技术

  • 数据采集预处理
  1. flume可以进行流式日志数据的收集
  2. sqoop可以交互关系型数据库,进行导入导出数据
  3. 使用爬虫技术,可以在网上爬取海量网页数据
  • 数据存储与管理
    大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
  • 数据处理与分析
    利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。

四. 大数据应用

在这里插入图片描述

五. 场景化解决方案:

1. 离线批处理

1.1 概念:

离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。

1.2 特点:

  • 处理时间要求不高
  • 处理数据量巨大
  • 处理数据格式多样
  • 占用计算存储资源多

1.3 流程图

在这里插入图片描述

2. 实时检索

2.1 概念:

实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。

2.2 核心诉求

  • 检索性能要求高
  • 高并发查询
  • 数据量大
  • 支持结构化和非结构化
  • 高效的数据加载
  • 支持图检索

2.3流程图

在这里插入图片描述

3. 实时流处理

3.1 概念:

实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。

3.2 诉求:

  • 处理数据快
  • 高吞吐量
  • 抗震性强
  • 可靠性高
  • 水平扩展
  • 多数据源支持
  • 数据权限和资源隔离
  • 第三方工具对接

3.3 流程图

在这里插入图片描述

4.融合数仓

4.1概念:

在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

4.2诉求

  • 数据统一存储
  • 减少数据孤岛和冗余
  • 一集成(旧业务和新业务可以无缝集成)
  • 大集群

4.3流程图

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135917.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • H5文件简介和使用

    H5文件简介和使用H5文件是层次数据格式第5代的版本(HierarchicalDataFormat,HDF5),它是用于存储科学数据的一种文件格式和库文件。接触到这个文件格式也是因为上Coursera深度学习课程的时候,作业用到了。它是由美国超级计算与应用中心研发的文件格式,用以存储和组织大规模数据。目前由非营利组织HDF小组提供支持。目前,很多商业和非商业组织都支持这种文件格式,如Java,MATLAB,P…

    2025年10月13日
    3
  • shell学习教程(超详细完整)[通俗易懂]

    shell学习教程(超详细完整)[通俗易懂]为了方便以后工作和复习,记录一下学习shell脚本的笔记,看这篇文章需要对linux系统熟悉文章目录一、什么是shell?为什么要学习和使用shell?二、shell的分类shell脚本的执行三、shell变量1.变量的命名规则:2.变量的分类:2.1用户自定义变量:2.1.1变量定义2.1.2变量调用2.1.3变量查看2.1.4变量删除2.2环境变量:1)环境变量设置2)环境变量查询和删除3)系统默认环境变量2.3位置参数变量:2.4预定义变量:3.只读变量:4.接受键盘输入:四、shell运算符1.

    2022年8月18日
    5
  • spring cloud之 hello world和eurake介绍及eurake使用

    spring cloud之 hello world和eurake介绍及eurake使用一.springcloud之helloworld1.两个微服务,分别是用户和订单,其中用户是微服务提供者,订单是微服务消费者2.首先建一个工程,里面有两个module:prvoider-user和comsumer-ordercomsumer-user配置文件:prvoider-order配置文件:用spring提供的RestTemplate访问rest…

    2022年5月10日
    53
  • oracle怎么锁表以及解锁,Oracle锁表与解锁

    oracle怎么锁表以及解锁,Oracle锁表与解锁本文讲解如何查询Oracle中锁表的Session,并如何杀掉锁表进程.查看锁表语句:方法1:selectsess.sid,sess.serial#,lo.oracle_username,lo.os_user_name,ao.object_name,lo.locked_modefromv$locked_objectlo,dba_objectsao,v$sessionsesswherea…

    2022年6月17日
    83
  • android onresume方法,非静态方法’onResume’Android Studio

    android onresume方法,非静态方法’onResume’Android Studio我想使用WebView作为Youtube。当我尝试编译它时,出现此错误“非静态方法onResume&无法从静态上下文”引用。非静态方法’onResume’AndroidStudio我曾尝试使用rootView,但它没有工作='(publicclassvodextendsFragment{publicstaticfinalStringTAG=”vod”;@Null…

    2022年5月5日
    180
  • ubuntu 20.04中文输入法安装

    ubuntu 20.04中文输入法安装sudoapt-getinstallfcitx-googlepinyin

    2022年9月26日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号