【大数据应用开发】大数据的概念[通俗易懂]

【大数据应用开发】大数据的概念[通俗易懂]一.大数据的概念维基百科定义:大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。二.大数据4V特征Volume:体量巨大Velocity:处理速度快Variety:类型繁多(结构化,半结构化,非结构化)Value:价值密度低三.大数据主流技术数据采集预处理flume可以进行流式日志数据的收集sqoop可以交互关系型数据库,进行导入导…

大家好,又见面了,我是你们的朋友全栈君。

一. 大数据的概念

维基百科定义:
数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。

二. 大数据4V特征

  • Volume:体量巨大
  • Velocity:处理速度快
  • Variety:类型繁多(结构化,半结构化,非结构化)
  • Value:价值密度低

三. 大数据主流技术

  • 数据采集预处理
  1. flume可以进行流式日志数据的收集
  2. sqoop可以交互关系型数据库,进行导入导出数据
  3. 使用爬虫技术,可以在网上爬取海量网页数据
  • 数据存储与管理
    大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
  • 数据处理与分析
    利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。

四. 大数据应用

在这里插入图片描述

五. 场景化解决方案:

1. 离线批处理

1.1 概念:

离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。

1.2 特点:

  • 处理时间要求不高
  • 处理数据量巨大
  • 处理数据格式多样
  • 占用计算存储资源多

1.3 流程图

在这里插入图片描述

2. 实时检索

2.1 概念:

实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。

2.2 核心诉求

  • 检索性能要求高
  • 高并发查询
  • 数据量大
  • 支持结构化和非结构化
  • 高效的数据加载
  • 支持图检索

2.3流程图

在这里插入图片描述

3. 实时流处理

3.1 概念:

实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。

3.2 诉求:

  • 处理数据快
  • 高吞吐量
  • 抗震性强
  • 可靠性高
  • 水平扩展
  • 多数据源支持
  • 数据权限和资源隔离
  • 第三方工具对接

3.3 流程图

在这里插入图片描述

4.融合数仓

4.1概念:

在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。
随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

4.2诉求

  • 数据统一存储
  • 减少数据孤岛和冗余
  • 一集成(旧业务和新业务可以无缝集成)
  • 大集群

4.3流程图

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135917.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ant安装配置使用介绍及eclipse中使用

    ant安装配置使用介绍及eclipse中使用一、安装ant到官方主页http://ant.apache.org下载新版(目前为Ant1.8.1)的ant,得到的是一个apache-ant-1.8.1-bin.zip的压缩包。将其解压到你的硬盘上,例如:C:\apache-ant-1.8.1。ant是java编写的,具有跨平台特点。.需要安装JDK,二、配置环境变量window中设置ant环境变量:配置环境变量

    2022年7月18日
    15
  • Docker学习笔记(1) — 安装docker

    Docker学习笔记(1) — 安装docker

    2022年3月6日
    59
  • 打印菱形Java_for循环打印菱形

    打印菱形Java_for循环打印菱形Java打印菱形Java打印菱形先看效果:题目分析代码Java打印菱形先看效果:题目分析1、星号前面的空白要用空格代替。2、把图形分为上下两部分,分别找出行数与“空格”和“*”的关系上半部分(正三角):空格个数与行数的关系橘色框:代表行号。红色框:正三角形成的最大行号(maxNum)。计算公式:(总行数+1)/2    &nb…

    2022年9月29日
    0
  • 关于Python中的lambda,这篇阅读量10万+的文章可能是你见过的最完整的讲解[通俗易懂]

    关于Python中的lambda,这篇阅读量10万+的文章可能是你见过的最完整的讲解[通俗易懂]lambda是Python编程语言中使用频率较高的一个关键字。那么,什么是lambda?它有哪些用法?网上的文章汗牛充栋,可是把这个讲透的文章却不多。这里,我们通过阅读各方资料,总结了关于Python中的lambda的“一个语法,三个特性,四个用法,一个争论”。欢迎阅读和沟通(个人微信:slxiaozju)。由于文章是从我的公众号上复制过来的,因此排版不整齐,但是内容绝对充实,欢迎关注公众…

    2022年8月12日
    5
  • html5空白站位符号,空格代码(隐形空白符号)

    html5空白站位符号,空格代码(隐形空白符号)CSS的空间处理一、空格规则浏览器通常会忽略HTML代码中的空白。上面是一行HTML代码,文本的前面、里面和后面各有两个空格。为了便于识别,这里使用半圆形符号来表示空间。浏览器的输出如下。你好世界如您所见,文本前后的空格将被忽略,内部连续的空格将只被算作一个。这是浏览器处理空格的基本规则。如果希望空格按原样输出,可以使用前置标签。另一种方法是用HTML实体来代替表示空格。二、空格字符处理空格的HT…

    2022年9月16日
    0
  • navitecat激活码[最新免费获取]2022.03.11

    (navitecat激活码)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html1M…

    2022年3月13日
    153

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号