【大数据应用开发】大数据的概念[通俗易懂]

【大数据应用开发】大数据的概念[通俗易懂]一.大数据的概念维基百科定义:大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。二.大数据4V特征Volume:体量巨大Velocity:处理速度快Variety:类型繁多(结构化,半结构化,非结构化)Value:价值密度低三.大数据主流技术数据采集预处理flume可以进行流式日志数据的收集sqoop可以交互关系型数据库,进行导入导…

大家好,又见面了,我是你们的朋友全栈君。

一. 大数据的概念

维基百科定义:
数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。

二. 大数据4V特征

  • Volume:体量巨大
  • Velocity:处理速度快
  • Variety:类型繁多(结构化,半结构化,非结构化)
  • Value:价值密度低

三. 大数据主流技术

  • 数据采集预处理
  1. flume可以进行流式日志数据的收集
  2. sqoop可以交互关系型数据库,进行导入导出数据
  3. 使用爬虫技术,可以在网上爬取海量网页数据
  • 数据存储与管理
    大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
  • 数据处理与分析
    利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。

四. 大数据应用

在这里插入图片描述

五. 场景化解决方案:

1. 离线批处理

1.1 概念:

离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。

1.2 特点:

  • 处理时间要求不高
  • 处理数据量巨大
  • 处理数据格式多样
  • 占用计算存储资源多

1.3 流程图

在这里插入图片描述

2. 实时检索

2.1 概念:

实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。

2.2 核心诉求

  • 检索性能要求高
  • 高并发查询
  • 数据量大
  • 支持结构化和非结构化
  • 高效的数据加载
  • 支持图检索

2.3流程图

在这里插入图片描述

3. 实时流处理

3.1 概念:

实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。

3.2 诉求:

  • 处理数据快
  • 高吞吐量
  • 抗震性强
  • 可靠性高
  • 水平扩展
  • 多数据源支持
  • 数据权限和资源隔离
  • 第三方工具对接

3.3 流程图

在这里插入图片描述

4.融合数仓

4.1概念:

在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

4.2诉求

  • 数据统一存储
  • 减少数据孤岛和冗余
  • 一集成(旧业务和新业务可以无缝集成)
  • 大集群

4.3流程图

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135917.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月4日 下午1:36
下一篇 2022年6月4日 下午1:46


相关推荐

  • 【软件工程】——详细设计说明书「建议收藏」

    【软件工程】——详细设计说明书「建议收藏」1引言1.1编写目的该文档在概要设计的基础上,进一步的细化系统结构,展示了软件结构的图标,物理设计、数据结构设计、及算法设计、详细的介绍了系统各个模块是如何实现的,包括涉及到的算法,逻辑流程等。预期的读者:程序员1.2背景a. 待开发软件系统的名称:机房收费系统b. 项目的任务提出者:米新江教授c. 项目的开发者:齐智d. 项目的用户:廊坊师范学院全体在职员工及学生e. 运行该软…

    2022年6月12日
    36
  • mysql怎么创建,删除,查看索引?

    mysql怎么创建,删除,查看索引?

    2021年10月18日
    44
  • 存储过程常见语法

    存储过程常见语法存储过程常见语法一、存储过程的概念:1、存储过程Procedure是一组为了完成特定功能的SQL语句集合,经编译后存储在数据库中,用户通过指定存储过程的名称并给出参数来执行2、存储过程中可以包含逻辑控制语句和数据操纵语句,它可以接受参数、输出参数、返回单个或多个结果集以及返回值。3、由于存储过程在创建时即在数据库服务器上进行了编译并存储在数据库中,所以存储过程运行要比单个的SQL语…

    2022年7月17日
    15
  • 第三章,springboot 部分注解讲解,和多配置文件加载方式[通俗易懂]

    第三章,springboot 部分注解讲解,和多配置文件加载方式[通俗易懂]第三章,springboot 部分注解讲解,和多配置文件加载方式

    2022年4月24日
    43
  • seo关键词快速排名流量有多大_seo站内优化技巧

    seo关键词快速排名流量有多大_seo站内优化技巧SEO的一个重要工作就是,通过优化关键词的方式,将网站做到搜索页的第一页,甚至第一页的第一名的位置。比如,你们公司是做鲜花业务,那么用户搜索“玫瑰”的时候,第一眼就能搜到你的网站。…

    2025年12月3日
    6
  • ie8是什么时候出的_ie8.0是什么意思

    ie8是什么时候出的_ie8.0是什么意思IE8beta2来了,这次的beta2比起beta1有了长足的进步。功能已经不比firefox差,还有不少胜出的地方。在这两个地方有一些评测,从中可以看出其特色:http://bbs.maxthon.cn/viewthread.php?tid=102092http://publish.it168.com/2008/0828/20080828031601.shtml号称完全支持…

    2025年6月22日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号