流数据_数据回流是什么意思

流数据_数据回流是什么意思恢复内容开始特征:持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算,海量,分布,实时,快速部署,可靠linkedinKafkasparkstreaming:微小批

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

————恢复内容开始————

特征:

持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算,

海量,分布,实时,快速部署,可靠

linked in Kafka

spark streaming:微小批处理,模拟流计算,秒级响应

DStream 一系列RDD 的集合

支持批处理

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 创建文件流

流数据_数据回流是什么意思

 

 10代表每10s启动一次流计算

textFileStream 定义了一个文件流数据源

 任务: 寻找并跑demo代码 搭建环境 压力测试 产品

 

套接字流

流数据_数据回流是什么意思

 

 插播: futrue使用(为了兼容老版本python)

https://www.liaoxuefeng.com/wiki/897692888725344/923030465280480

 客户端进行刺频统计,并显示结果。

#!/usr/bin/env python3


from __future__ import print_function

import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":
    if len(sys.argv)!=3:
        print("Usage: NetworkWordCount.py <hostname><port>",file=sys.stderr)
        exit(-1)
# this is for two arg plus itself        
    sc=SparkContext(appName="PythonStreamingNetworkWordCount")
    ssc=StreamingContext(sc,1)
    lines=ssc.socketTextStream(sys.argv[1],int(sys.argv[2]))
    counts=lines.flatMap(lambda line:line.split(""))\
            .map(lambda word:(word,1))\
            .reduceByKey(lambda a,b:a+b)
    counts.pprint()
    ssc.start()
    ssc.awaitTermination()

客户端从服务端接收流数据:

# 用客户端向服务端发送流数据 $ /usr/local/spark/bin/spark-submit NetworkWordCount.py localhost <端口>

 

服务端,发送

(a) 系统自带服务端 nc。

# 打开服务端 $nc -lk <端口号>

 

 #!/usr/bin/env python3
# NetworkWordCount.py

from __future__ import print_function
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == “__main__”:
    if len(sys.argv) != 3:
        print(“Usage: NetworkWordCount.py <hostname> <port>”, file=sys.stderr)
        exit(-1)

    sc = SparkContext(appName = “PythonStreamingNetworkWordCount”)
    ssc = StreamingContext(sc, 1)
    lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))

    counts = lines.flatMap(lambda line: line.split(” “)) \
            .map(lambda word: (word, 1))\
            .reduceByKey(lambda a,b: a+b)

    counts.pprint()
    ssc.start()
    ssc.awaitTermination()

 

 

 

 

 

import time
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc=SparkContext(appName=”RDDstream”)
ssc=StreamingContext(sc,2)

rddQueue = []
for i in range(5):
        rddQueue += [ssc.sparkContext.parallelize([j for j in range(1,1001)],10)]
        time.sleep(1)

inputStream = ssc.queueStream(rddQueue)
mappedStream = inputStream.map(lambda x:(x%10,1))
reducedStream=mappedStream.reduceByKey(lambda a,b:a+b)
reducedStream.pprint()
ssc.start()
ssc.stop(stopSparkContext=True,stopGraceFully=True)

 kafka作为高级数据源

1。安装

先查看spark版本,spark-shell查看

version2。4。4   scala 2。11。12

 具体参见课程64 以及

http://dblab.xmu.edu.cn/blog/1743-2/

http://dblab.xmu.edu.cn/blog/1096-2/

需要安装jar包到spark内

流数据_数据回流是什么意思

 

 

 Dstream(Discreted stream 离散的)无状态转换

https://www.cnblogs.com/jesse123/p/11452388.html

https://www.cnblogs.com/jesse123/p/11460101.html

只统计当前批次,不会去管历史数据

Dstream 有状态转换

流数据_数据回流是什么意思

 

 (windowLength,slideInterval)滑动窗口长度,滑动窗口间隔

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 名称一样 但function不一样 逆函数减少计算量

流数据_数据回流是什么意思

 

 流数据_数据回流是什么意思

 

 新进来的x+y,离开的x-y,当中的数据(几百万条)不动  30 (应该是秒为单位)滑动窗口大小 10秒间隔

 

有状态转换upstatebykey操作

跨批次之间维护

 

 https://www.cnblogs.com/luotianshuai/p/5206662.html#autoid-0-3-0

这篇blog很详细 kafka相关概念 集群搭建

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/167477.html原文链接:https://javaforall.net

(0)
上一篇 2022年8月2日 下午1:46
下一篇 2022年8月2日 下午2:00


相关推荐

  • jenkins拉取gitlab代码_查看git仓库地址

    jenkins拉取gitlab代码_查看git仓库地址前言python自动化的脚本开发完成后需提交到git代码仓库,接下来就是用Jenkins拉取代码去构建自动化代码了新建项目打开Jenkins新建一个自由风格的项目源码管理Repository

    2022年8月6日
    8
  • idea汉化之后打不开settings解决方法

    idea汉化之后打不开settings解决方法用解压软件打开汉化包,进入messages目录,找到settings的配置文件:VcsBundle.properties以及定位的配置文件:UIBundle.properties将这两个文件删掉重新启动IDEA即可完美解决,感谢这位前辈。…

    2022年5月30日
    45
  • 免费PHP主机_php做一个网站

    免费PHP主机_php做一个网站转载–4个免费的国外php主机服务这几个主机都是没有广告的,并且提供了很多先进的功能,如FTP访问,支持PHP和MySQL,自定义域和免费子域名等,最主要的是支持PHP,那就可以做博客主机只用了,新手们怕买了主机不会玩的话,可以先用他们来建个网站来练练。1.000WebHost000WebHost提供了一个最可靠的和功能丰富的主机托管服务,没有广告。所有的帐户都有1500M的磁盘空间,100…

    2026年2月7日
    6
  • JAVA生成uuid_uuidJDK生成代码

    JAVA生成uuid_uuidJDK生成代码uuid作为通用识别码,其java的实现版本如下,本文以将url(https://blog.csdn.net/renyuanfang/article/details/86701148)转换成uuid为例,实现具体的代码实现importjava.util.UUID;importjava.nio.ByteBuffer;importjava.nio.ByteOrder;impor…

    2026年2月17日
    5
  • mysql基本sql语句大全(基础用语篇)_mysql查询语句汇总

    mysql基本sql语句大全(基础用语篇)_mysql查询语句汇总1.数据库存储引擎mysql>showvariableslike’%storage_engine%’;#查看mysql当前默认的存储引擎mysql>showengines;#查看存储引擎InnoDB存储引擎:默认引擎,最常用的。InnoDB是事务型数据库的首选引擎,支持事务安全表(ACID),支持行锁定和外键;InnoDB是默认的MySQL引擎InnoDB特…

    2025年9月12日
    9
  • 秒杀多线程第九篇 经典线程同步总结 关键段 事件 互斥量 信号量

    秒杀多线程第九篇 经典线程同步总结 关键段 事件 互斥量 信号量前面《秒杀多线程第四篇一个经典的多线程同步问题》提出了一个经典的多线程同步互斥问题,这个问题包括了主线程与子线程的同步,子线程间的互斥,是一道非常经典的多线程同步互斥问题范例,后面分别用了四篇《秒杀多线程第五篇经典线程同步关键段CS》《秒杀多线程第六篇经典线程同步事件Event》《秒杀多线程第七篇经典线程同步互斥量Mutex》《秒杀多线程第八篇经典线程同步信号量Semaphore》来详细介绍常用的

    2022年7月15日
    17

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号