流数据_数据回流是什么意思

流数据_数据回流是什么意思恢复内容开始特征:持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算,海量,分布,实时,快速部署,可靠linkedinKafkasparkstreaming:微小批

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

————恢复内容开始————

特征:

持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算,

海量,分布,实时,快速部署,可靠

linked in Kafka

spark streaming:微小批处理,模拟流计算,秒级响应

DStream 一系列RDD 的集合

支持批处理

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 创建文件流

流数据_数据回流是什么意思

 

 10代表每10s启动一次流计算

textFileStream 定义了一个文件流数据源

 任务: 寻找并跑demo代码 搭建环境 压力测试 产品

 

套接字流

流数据_数据回流是什么意思

 

 插播: futrue使用(为了兼容老版本python)

https://www.liaoxuefeng.com/wiki/897692888725344/923030465280480

 客户端进行刺频统计,并显示结果。

#!/usr/bin/env python3


from __future__ import print_function

import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":
    if len(sys.argv)!=3:
        print("Usage: NetworkWordCount.py <hostname><port>",file=sys.stderr)
        exit(-1)
# this is for two arg plus itself        
    sc=SparkContext(appName="PythonStreamingNetworkWordCount")
    ssc=StreamingContext(sc,1)
    lines=ssc.socketTextStream(sys.argv[1],int(sys.argv[2]))
    counts=lines.flatMap(lambda line:line.split(""))\
            .map(lambda word:(word,1))\
            .reduceByKey(lambda a,b:a+b)
    counts.pprint()
    ssc.start()
    ssc.awaitTermination()

客户端从服务端接收流数据:

# 用客户端向服务端发送流数据 $ /usr/local/spark/bin/spark-submit NetworkWordCount.py localhost <端口>

 

服务端,发送

(a) 系统自带服务端 nc。

# 打开服务端 $nc -lk <端口号>

 

 #!/usr/bin/env python3
# NetworkWordCount.py

from __future__ import print_function
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == “__main__”:
    if len(sys.argv) != 3:
        print(“Usage: NetworkWordCount.py <hostname> <port>”, file=sys.stderr)
        exit(-1)

    sc = SparkContext(appName = “PythonStreamingNetworkWordCount”)
    ssc = StreamingContext(sc, 1)
    lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))

    counts = lines.flatMap(lambda line: line.split(” “)) \
            .map(lambda word: (word, 1))\
            .reduceByKey(lambda a,b: a+b)

    counts.pprint()
    ssc.start()
    ssc.awaitTermination()

 

 

 

 

 

import time
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc=SparkContext(appName=”RDDstream”)
ssc=StreamingContext(sc,2)

rddQueue = []
for i in range(5):
        rddQueue += [ssc.sparkContext.parallelize([j for j in range(1,1001)],10)]
        time.sleep(1)

inputStream = ssc.queueStream(rddQueue)
mappedStream = inputStream.map(lambda x:(x%10,1))
reducedStream=mappedStream.reduceByKey(lambda a,b:a+b)
reducedStream.pprint()
ssc.start()
ssc.stop(stopSparkContext=True,stopGraceFully=True)

 kafka作为高级数据源

1。安装

先查看spark版本,spark-shell查看

version2。4。4   scala 2。11。12

 具体参见课程64 以及

http://dblab.xmu.edu.cn/blog/1743-2/

http://dblab.xmu.edu.cn/blog/1096-2/

需要安装jar包到spark内

流数据_数据回流是什么意思

 

 

 Dstream(Discreted stream 离散的)无状态转换

https://www.cnblogs.com/jesse123/p/11452388.html

https://www.cnblogs.com/jesse123/p/11460101.html

只统计当前批次,不会去管历史数据

Dstream 有状态转换

流数据_数据回流是什么意思

 

 (windowLength,slideInterval)滑动窗口长度,滑动窗口间隔

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 名称一样 但function不一样 逆函数减少计算量

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 新进来的x+y,离开的x-y,当中的数据(几百万条)不动  30 (应该是秒为单位)滑动窗口大小 10秒间隔

 

有状态转换upstatebykey操作

跨批次之间维护

 

 https://www.cnblogs.com/luotianshuai/p/5206662.html#autoid-0-3-0

这篇blog很详细 kafka相关概念 集群搭建

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/167477.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 微信小程序js 字符串截取[通俗易懂]

    微信小程序js 字符串截取[通俗易懂]微信小程序js字符串截取console.log(time)输出:qwertyuiopconsole.log(time.substring(0,5))输出:qwert

    2022年6月4日
    194
  • Matlab保存图像的5种方法「建议收藏」

    Matlab保存图像的5种方法「建议收藏」此博客转自:https://blog.csdn.net/holybin/article/details/39502077,另外我补充了一些实验结果。1、使用imwrite函数如图像是img,则可以使用imwrite(img,’result.jpg’);这种方法保存图像大小和显示的大小是一样的。下面的方法得到的图像和原图像的大小不一样;下面是用该方法保存的图片我们注意到,用imwrite保存的图…

    2025年11月8日
    3
  • 5G物理信道和物理信号定义

    5G物理信道和物理信号定义一、上行链路物理信道包含以下信道:1、物理上行链路共享信道PUSCH2、物理上行控制共享信道PUCCH3、物理随机接入信道PRACH其中PUSCH支持的调制方案有:pai/2-BPSKQPSK16QAM64QAM256QAM物理上行链路控制信道支持多种格式:fomat0OFDM符号长度1-2fomat1OFDM符号长度4-14fomat2OFDM符号…

    2022年5月12日
    55
  • 制作zencart模板的几个步骤

    制作zencart模板的几个步骤很多做外贸站的朋友都在为自己的网店模板而头疼不已,本来踌躇满志的要好好做网站,但是当你用网店程序的时候,发现zencart程序里面默认的模板都不怎么好看。于是乎,四处寻找,找了这个想要那个,结果不是不能用就是功能不全。而且最大的威胁就是不安全,万一有个什么其他的代码嵌在里面,你也发现不了。这对于做外贸的你来说是得不偿失的,那么,你是否想要自己做一个你喜欢的模板呢?是不是苦于没有方法呢?易搜今天就来…

    2022年7月27日
    4
  • 旅游吧

    旅游吧生活在城市里的人,都习惯了朝九晚五的生活……每天思想被缩进在身体里,把所有的不如意压抑下去,即使可以大发雷霆,但还是要循规蹈矩的奔上那开往公司的公车……每个跳跃的灵魂被催眠了,换而代之的则是慢慢下垂的累眼……每人都在自己的座位上,无数次的敲打着键盘,习惯了这个习惯的动作,习惯了这个习惯的声音,习惯了这个习惯的频率……在这个北京的大都市,北漂随处可见,想想那在农村,从村头喊一声传到村

    2022年6月12日
    62
  • c语言getchar()的用法_c语言getchar的功能

    c语言getchar()的用法_c语言getchar的功能(1)语法intgetchar(void);(2)返回值getchar函数的返回值是用户输入的第一个字符的ASCII码,如出错返回-1,且将用户输入的字符回显到屏幕.如用户在按回车之前输入了不止一个字符,其他字符会保留在键盘缓存区中,等待后续getchar调用读取.也就是说,后续的getchar调用不会等待用户按键,而直接读取缓冲区中的字符,直到缓冲区中的字符读完为后,才等待用户按键。…

    2022年10月19日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号