流数据_数据回流是什么意思

流数据_数据回流是什么意思恢复内容开始特征:持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算,海量,分布,实时,快速部署,可靠linkedinKafkasparkstreaming:微小批

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

————恢复内容开始————

特征:

持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算,

海量,分布,实时,快速部署,可靠

linked in Kafka

spark streaming:微小批处理,模拟流计算,秒级响应

DStream 一系列RDD 的集合

支持批处理

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 创建文件流

流数据_数据回流是什么意思

 

 10代表每10s启动一次流计算

textFileStream 定义了一个文件流数据源

 任务: 寻找并跑demo代码 搭建环境 压力测试 产品

 

套接字流

流数据_数据回流是什么意思

 

 插播: futrue使用(为了兼容老版本python)

https://www.liaoxuefeng.com/wiki/897692888725344/923030465280480

 客户端进行刺频统计,并显示结果。

#!/usr/bin/env python3


from __future__ import print_function

import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":
    if len(sys.argv)!=3:
        print("Usage: NetworkWordCount.py <hostname><port>",file=sys.stderr)
        exit(-1)
# this is for two arg plus itself        
    sc=SparkContext(appName="PythonStreamingNetworkWordCount")
    ssc=StreamingContext(sc,1)
    lines=ssc.socketTextStream(sys.argv[1],int(sys.argv[2]))
    counts=lines.flatMap(lambda line:line.split(""))\
            .map(lambda word:(word,1))\
            .reduceByKey(lambda a,b:a+b)
    counts.pprint()
    ssc.start()
    ssc.awaitTermination()

客户端从服务端接收流数据:

# 用客户端向服务端发送流数据 $ /usr/local/spark/bin/spark-submit NetworkWordCount.py localhost <端口>

 

服务端,发送

(a) 系统自带服务端 nc。

# 打开服务端 $nc -lk <端口号>

 

 #!/usr/bin/env python3
# NetworkWordCount.py

from __future__ import print_function
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == “__main__”:
    if len(sys.argv) != 3:
        print(“Usage: NetworkWordCount.py <hostname> <port>”, file=sys.stderr)
        exit(-1)

    sc = SparkContext(appName = “PythonStreamingNetworkWordCount”)
    ssc = StreamingContext(sc, 1)
    lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))

    counts = lines.flatMap(lambda line: line.split(” “)) \
            .map(lambda word: (word, 1))\
            .reduceByKey(lambda a,b: a+b)

    counts.pprint()
    ssc.start()
    ssc.awaitTermination()

 

 

 

 

 

import time
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc=SparkContext(appName=”RDDstream”)
ssc=StreamingContext(sc,2)

rddQueue = []
for i in range(5):
        rddQueue += [ssc.sparkContext.parallelize([j for j in range(1,1001)],10)]
        time.sleep(1)

inputStream = ssc.queueStream(rddQueue)
mappedStream = inputStream.map(lambda x:(x%10,1))
reducedStream=mappedStream.reduceByKey(lambda a,b:a+b)
reducedStream.pprint()
ssc.start()
ssc.stop(stopSparkContext=True,stopGraceFully=True)

 kafka作为高级数据源

1。安装

先查看spark版本,spark-shell查看

version2。4。4   scala 2。11。12

 具体参见课程64 以及

http://dblab.xmu.edu.cn/blog/1743-2/

http://dblab.xmu.edu.cn/blog/1096-2/

需要安装jar包到spark内

流数据_数据回流是什么意思

 

 

 Dstream(Discreted stream 离散的)无状态转换

https://www.cnblogs.com/jesse123/p/11452388.html

https://www.cnblogs.com/jesse123/p/11460101.html

只统计当前批次,不会去管历史数据

Dstream 有状态转换

流数据_数据回流是什么意思

 

 (windowLength,slideInterval)滑动窗口长度,滑动窗口间隔

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 名称一样 但function不一样 逆函数减少计算量

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 新进来的x+y,离开的x-y,当中的数据(几百万条)不动  30 (应该是秒为单位)滑动窗口大小 10秒间隔

 

有状态转换upstatebykey操作

跨批次之间维护

 

 https://www.cnblogs.com/luotianshuai/p/5206662.html#autoid-0-3-0

这篇blog很详细 kafka相关概念 集群搭建

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/167477.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 02-continue与break的区别「建议收藏」

    02-continue与break的区别「建议收藏」大家好,我是Python领域的博主,如果觉得我的写的不错的话,请点赞关注支持我一下。如果你是初学者,可以和小编一起学习,在这里我每天都会发Python的基础知识,以及相关的代码。关注我和我一起学习吧文章目录 一、continue和break的区别 二、使用方法 1.continue 2.break 总结一、continue和break区别break和continue是python语…

    2022年9月13日
    5
  • 破坏ice的服务器消息,我的世界:ICE服务器炸,矛头指向Mn,但真相另有隐情!…

    破坏ice的服务器消息,我的世界:ICE服务器炸,矛头指向Mn,但真相另有隐情!…在游戏界中,有一场游戏玩家之间的“战争”,那就是《我的世界》和《迷你世界》。这场战争本来已经停息了很久,但是又因为某些事情,让它快速的发酵了起来。这件事情的原由是因为《我的世界》的ICE服务器被炸,具体经过小编下面为大家讲解。3月25号(大约时间),一个名为ICE的《我的世界》服务器被其他玩家恶意毁坏了,里面的建筑变得残破不堪,而服务器的存档也仅仅只有数天前的。要知道,这些建筑是很多玩家用大量的时…

    2022年6月12日
    51
  • hadoop菜鸟教程 Hadoop学习资料(云计算学习电子书)

    hadoop菜鸟教程 Hadoop学习资料(云计算学习电子书)hadoop与大数据的关系?大数据技术正渗透到各行各业。作为数据分布式处理系统的典型代表,Hadoop已成为该领域的事实标准。但Hadoop并不等于大数据。它只是一个成功的分布式系统,用于处理离线数据。大数据领域中还有许多其他类型的处理系统。随着大数据技术的普及,Hadoop已成为其开源功能和卓越性能的新宠。有些人甚至认为大数据是Hadoop。实际上,这是一种误解。Hadoop只是一个用于处…

    2022年4月29日
    34
  • 0范数 无穷范数 上确界[通俗易懂]

    无穷范数——向量中最大元素的绝对值0范数——向量中非0的元素的个数(或#表示)1范数参考上篇文章:范数概念 “上确界”的概念是数学分析中最基本的概念。考虑一个实数集合M.如果有一个实数S,使得M中任何数都不超过S,那么就称S是M的一个上界。  在所有那些上界中如果有一个最小的上界,就称为M的上确界。  一个有界数集有无

    2022年4月8日
    96
  • CSS导航条制作心得

    CSS导航条制作心得今天学习了导航条的制作,感觉收获很大!学习了一段时间的css和html。之前都是在慕课网上面看视频学习的,感觉收获不是特别大,有一点慢,效率不高。学东西还是得边做边学变想,学习编程最好能够不断地实践,毕竟实践出真知。学习了这个作者的文章http://www.missyuan.com/thread-438839-1-1.html    1.导航条放于div容器中——-ui和li来写

    2022年7月22日
    17
  • java输入与输出的格式已经一些知识点[通俗易懂]

    java输入与输出的格式已经一些知识点[通俗易懂]每个语句的首字母都要大写,每个语句写完以后要打分号;写单词时不需要写完,写几个字母再按alt+/ 可以出现单词供你选择;输出语句:System.out.println(“”);用户输入(编译完成后在Console里面输入):Scannerin=newScanner(System.in);in.nextInt():用户输入的整数型。变量:和C语言一样需要

    2022年7月8日
    17

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号