大数据_03【大数据基础知识】

大数据_03【大数据基础知识】大数据_0301大数据概述02什么是大数据?(BigData)03传统数据与大数据的对比04大数据的特点4.1传统数据与大数据处理服务器系统安装对比4.2大数据下服务器系统安装![在这里插入图片描述](https://img-blog.csdnimg.cn/20201006090915426.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV

大家好,又见面了,我是你们的朋友全栈君。

01 大数据概述

数据来源: 了解大数据到来之前,传统数据的通用处理模式1、企业内部管理系统 ,如员工考勤(打卡)记录。 2、客户管理系统(CRM)

数据特征: 1、数据增长速度比较缓慢,种类单一。 2、数据量为GB级别,数据量较小。

数据处理方式: 1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移 动数据到程序端)

遇到的问题: 1、数据量越来越大、数据处理的速度越来越慢。 2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。

02 什么是大数据?(Big Data)

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

数据的存储单位 最小的基本单位是bit 1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit

KB MB GB TB PB EB ZB YB BB NB DB 进率1024

03 传统数据与大数据的对比

在这里插入图片描述

04 大数据的特点

Volume(大量):  		数据量巨大,从TB到PB级别。
Velocity(高速):		数据量在持续增加(两位数的年增长率)。
Variety(多样): 		数据类型复杂,超过80%的数据是非结构化的。
Value(低密度高价值):  	低成本创造高价值。

数据来自大量源,需要做相关性分析。
需要实时或者准实时的流式采集,有些应用90%写vs.10%读。
数据需要长时间存储,非热点数据也会被随机访问。

4.1 传统数据与大数据处理服务器系统安装对比

在这里插入图片描述

4.2 大数据下服务器系统安装

在这里插入图片描述

05 大数据生态系统

大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题
新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。
技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。 最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。
商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。

新技术
HADOOP
		HDFS:		海量数据存储。
		YARN:		集群资源调度。
		MapReduce:	历史数据离线计算。
	
Hive:海量数据仓库。	
	Hbase:		海量数据快速查询数据库。
	Zookeeper:	集群组件协调。
	
Impala:		是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。

Kudu:		是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件
	Sqoop:	数据同步组件(关系型数据库与hadoop同步)。
	Flume :	海量数据收集。
	
Kafka:		消息总线。
Oozie:		工作流协调。
Azkaban: 	工作流协调。
Zeppelin:	数据可视化。
Hue: 		数据可视化。
Flink:		实时计算引擎。

Kylin: 	分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。
Elasticsearch: 	是一个分布式多用户能力的全文搜索引擎。
Logstash: 		一个开源数据搜集引擎。
Kibana: 		一个开源的分析和可视化平台。

SPARK
		SparkCore:Spark 核心组件
		
SparkSQL:			高效数仓SQL引擎
Spark Streaming: 	实时计算引擎
Structured: 		实时计算引擎2.0
Spark MLlib:		机器学习引擎
Spark GraphX:		图计算引擎

06 大数据生态系统

在这里插入图片描述

大数据技术快的原因
	1、分布式存储
	2、分布式并行计算
	3、移动程序到数据端
	4、更前卫、更先进的实现思路
	5、更细分的业务场景
	6、更先进的硬件技术+更先进的软件技术
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135887.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 云计算基础之如何学习云计算?

    背景随着云计算的普及,越来越多IDC上的网站与应用开始在云上。那么同时对于我们这些IT从业者来说,也面临着加快学习云计算,不被新技术淘汰的挑战。2011年,云计算正式开始发展。今年是2018年了,是云计算发展的第7个年头了。虽然云计算的前景很好,但它的发展也更多地是在商业应用上,还没能达到学习交流分享的层次。云计算的学习路线、书籍、社区与成熟的嵌入式、互联网行业相比,是非常欠缺的!我们这次…

    2022年4月4日
    32
  • Python贪吃蛇 (完整代码+详细注释+粘贴即食)

    Python贪吃蛇 (完整代码+详细注释+粘贴即食)代码#!/usr/bin/envpython#-*-coding:utf-8-*-#author:Wangdalitime:2021年1月24日16:08:44#python实现:贪吃蛇”’游戏玩法:回车开始游戏;空格暂停游戏/继续游戏;方向键/wsad控制小蛇走向”””思路:用列表存储蛇的身体;用浅色表示身体,深色背景将身体凸显出来;蛇的移动:仔细观察,是:身体除头和尾不动、尾部消失,头部增加,所以,新添加的元素放在列表头部、删除尾部元素;游戏结束判定策略:超出

    2022年5月15日
    36
  • Linux中退出编辑模式的命令

    Linux中退出编辑模式的命令vim有三种模式,注意:这三种模式有很多不同的叫法,我这里是按照鸟哥的linux书中的叫法。一般指令模式、编辑模式、指令列命令模式1.vim文件名进入一般模式;2.按i进行编辑进入编辑模式;(或者I,o,O,a,A,r,R)3.编辑结束,按ESC键跳到一般模式模式;4.按:进入指令列命令模式;进入指令列模式…

    2022年9月30日
    0
  • maven快照更新策略_eclipse更新maven包

    maven快照更新策略_eclipse更新maven包1、为什么会有快照?开发中,A项目依赖于项目B,没有快照时,B每次改动我们就需要赋予给他一个新版本号,然后在A的pom.xml中修改B的版本,这不仅浪费版本号,而且会带来很多的沟通成本。快照就是为了解决这个问题而生的,每次B发布到私服,maven都会将B打上时间戳,A更新时会检查B的时间戳,如果晚于本地仓库B的时间戳,那么就会进行更新。2、快照更新策略注意,快照并不是每次ins

    2022年10月4日
    0
  • Charles抓包使用记录

    Charles抓包使用记录Charles抓包使用记录Charlse在Windows系统和Mac使用的不同点Charlse在Windows系统和Mac使用的不同点Windows和Mac上的使用方式基本上没有太大差异,但是对于https安全证书的安装还是有一些不同的,在Windows上安装之后需要在控制面板中找到证书管理页面,界面如下将证书到处到本地,然后再导入到“受信任的根证书颁发机构”。…

    2022年5月26日
    37
  • VMware Ubuntu安装详细过程(非常靠谱)

    不是每一个程序员都必须玩过linux,只是博主觉得现在的很多服务器都是linux系统的,而自己属于那种前端也搞,后台也搞,对框架搭建也感兴趣,但是很多生产上的框架和工具都是安装在服务器上的,而且有不少大公司都要求熟悉在linux上开发,因此从个人职业发展有必要去多了解一下linux。

    2022年4月6日
    75

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号