使用Spark SQL构建批处理程序

使用Spark SQL构建批处理程序

前言

今天介绍利用
StreamingPro 完成批处理的流程。

准备工作

  • 下载StreamingPro
我们假设您将文件放在了/tmp目录下。

填写配置文件

  • 实例一,我要把数据从ES导出到HDFS,并且形成csv格式。

启动StreamingPro

Local模式:

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:///tmp/test.json

访问

http://127.0.0.1:4040

可进入Spark UI
集群模式:

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://cluster/tmp/test.json

这里需要注意的是,配置文件并蓄放到HDFS上,并且需要协商hdfs前缀。这是一个标准的Spark 批处理程序
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/108883.html原文链接:https://javaforall.net

(0)
上一篇 2021年9月17日 下午4:00
下一篇 2021年9月17日 下午5:00


相关推荐

  • Quartz任务中调用Spring容器中bean及动态调度任务-SchedulerFactoryBean「建议收藏」

    Quartz任务中调用Spring容器中bean及动态调度任务-SchedulerFactoryBean「建议收藏」Quartz是开源任务调度框架中的翘首,它提供了强大任务调度机制,同时保持了使用的简单性。Quartz允许开发人员灵活地定义触发器的调度时间表,并可以对触发器和任务进行关联映射。此外,Quartz提供了调度运行环境的持久化机制,可以保存并恢复调度现场,即使系统因故障关闭,任务调度现场数据并不会丢失。此外,Quartz还提供了组件式的侦听器、各种插件、线程池等功能。Spring为…

    2022年5月23日
    102
  • 腾讯内测QClaw:一键部署「龙虾」OpenClaw,微信、QQ双端直连

    腾讯内测QClaw:一键部署「龙虾」OpenClaw,微信、QQ双端直连

    2026年3月12日
    1
  • bit rate / frame rate /sample rate等等

    bit rate / frame rate /sample rate等等原文地址码率:Bit Rate,指视频或音频文件在单位时间内使用的数据流量,该参数的单位通常是Kbps,也就是千比特每秒。通常2000kbps~3000kbps就已经足以将画质效果表现到极致了。码率参数与视频文件最终体积大小有直接性的关系。 (编码码率—软件)  混合码率:Overall Bit Rate,指视频文件中视频和音频混合后的整体平均码率。一般描述一个视频文件的码率都是指

    2022年10月17日
    4
  • Python简介 「建议收藏」

    Python简介 「建议收藏」1,Python是一种计算机程序设计语言,Python是用来编写应用程序的高级编程语言。完成同一个任务,Python的代码量很少,但是代码少的代价是运行速度慢。2,问题:是不是越低级的程序越难学,

    2022年7月3日
    27
  • 怎么用豆包ai修改图片,手把手教你玩转豆包AI的隐藏功能

    怎么用豆包ai修改图片,手把手教你玩转豆包AI的隐藏功能

    2026年3月12日
    2
  • k8s 资源管理_pod容器间调用命令

    k8s 资源管理_pod容器间调用命令k8s管理器介绍yaml资源管理器介绍管理器介绍在Kubernetes中,所有的内容都抽象为资源,用户需要通过操作资源来管理Kubernetes。Kubernetes的本质就是一个集群系统,用户可以在集群中部署各种服务。所谓的部署服务,其实就是在Kubernetes集群中运行一个个的容器,并将指定的程序跑在容器中。Kubernetes的最小管理单元是Pod而不是容器,所以只能将容器放在Pod中,而Kubernetes一般也不会直接管理Pod,而是通过Pod控制器来管理Pod的。Pod提供服务之后

    2022年8月9日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号