sparkr基本操作1

sparkr基本操作1

大家好,又见面了,我是全栈君。

由于装的sparkr是1.4版本的,老版本的很多函数已经不再适用了。

在2台服务器的组成的集群中测试了一版数据,熟悉下这个api的基本操作。​

libpath <- .libPaths()

libpath <- c(libpath, “/home/r/spark/spark-1.4.0-bin-hadoop2.4/R/lib”)

.libPaths(libpath)

rm(libpath)

library(SparkR)

#没有默认找到变量 需单独设置,也可以在sparkR.init()里设置

Sys.setenv(SPARK_HOME=”/home/r/spark/spark-1.4.0-bin-hadoop2.4/”)

​#单主机启动

sc <- sparkR.init()

#集群启动

sc <- sparkR.init(“spark://master机器ip:监听端口”)

#失效​

# sc <- sparkR.init(sparkPackages=”com.databricks:spark-csv_2.11:1.0.3″)

sqlContext <- sparkRSQL.init(sc)

df <- createDataFrame(sqlContext, iris)

t <- head(summarize(groupBy(df, df$Species), count=n(df$Sepal_Length), m=sum(df$Sepal_Length)))

#读取数据将其转为json格式 以便sparkr读取​

pay.data <- read.table(“/tmp/pay.dat”, stringsAsFactors = F, sep=”\t”)

names(pay.data) <- c(“user”, “money”)

df.pay <- createDataFrame(sqlContext, pay.data)

#createdataframe函数在原始data.frame很大时基本被huang住,不知道是什么原因

json <- apply(pay.data, 1, toJSON)

#   json <- toJSON(pay.data[i, ])

  write.table(json, file=”/tmp/1.json”, col.names = F, 

              row.names=F, append=T, quote = F)

# }

 

write.table(josn1, file=”http://183.60.122.213:7070/tmp/1.json”, col.names = F, row.names=F, quote = F)

pay1.json <- read.df(sqlContext, “/home/r/spark/spark-1.4.0-bin-hadoop2.4/examples/src/main/resources/people.json”,

                    “json”)

#默认只支持默认只支持json和Parquet 格式文件,文件需要在work服务器上

pay.json <- read.df(sqlContext, “/tmp/1.json”,

                    “json”)

pay.json$money1 <- cast(pay.json$money, “double”)

#将数据按帐号汇总统计后排序 输出​

pay.account <- agg(groupBy(pay.json, pay.json$user), money=sum(pay.json$money1),

                   num=n(pay.json$user))

pay.account1 <- arrange(pay.account, desc(pay.account$money), desc(pay.account$num))

write.df(pay.json, “/tmp/account1”, “json”)

 

分组统计了500w+的充值数据 并且排序后写成json文件到磁盘  时间是22s+​,比ddply要快,4700w耗时约26s,再大的数据暂时没有统计了。

理解的很粗浅,sparkr适用于r无法统计的大批数据的预处理,可以将简单预处理的汇总数据返回给R加以建模分析。其他还有待后续深入了解。

 

参考:

1)​简单介绍http://people.apache.org/~pwendell/spark-releases/latest/sparkr.html#sparkr-dataframes

2)常用函数http://people.apache.org/~pwendell/spark-releases/latest/api/R/index.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/108643.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Spring Data JPA (Oracle)基础使用「建议收藏」

    Spring Data JPA (Oracle)基础使用「建议收藏」SpringDataJPA基础使用学习了尚硅谷的jpa在线视频教程,结合其他资料后动手实践的成果。 1.环境搭建Maven环境,在pom.xml中加入相关hibernate,spring,jdbc,slf4j-log4j12,json-lib,testng的jar包2.Spring配置文件说明配置文件放置位置,在classpath设定的目录下建个resources文件,放s…

    2022年5月7日
    44
  • delphi2007中如何安装ActiveX控件

    delphi2007中如何安装ActiveX控件(1).打开Delphi2007,File-New-PackageDelphiforwin32.(2).Component-ImportComponent,选择ImportActiveXControl.(3).在控件列表,或Add添加选择相应Active控件后,点next.(4).选择安装ActiveX控件所在的面板页,单元,包等.(5)点next,最后一步,选

    2022年5月15日
    40
  • springboot到底是什么_Springboot启动流程

    springboot到底是什么_Springboot启动流程SpringBoot是干哈的介绍:springboot是由Pivotal团队提供的全新框架。spring的出现是为了解决企业级开发应用的复杂性,spring的通过注册bean的方式来管理类,但是随着业务的增加,使用xml配置bean的方式也显得相当繁琐,所以springboot就是为了解决spring配置繁琐的问题而诞生的,并且近几年来非常流行开启我的第一个HelloSpringBoot!开启方式根据https://start.spring.io网址创建一个springboot项目

    2022年8月21日
    6
  • 小米刷原生android系统下载地址,小米6刷原生安卓8.0下载|小米6刷原生安卓p 免费版_附教程_最火软件站…

    小米刷原生android系统下载地址,小米6刷原生安卓8.0下载|小米6刷原生安卓p 免费版_附教程_最火软件站…小米6刷原生安卓系统是一款专门为小米6手机整理的刷机包,利用这款工具可以帮助小米6手机用户将自己的手机系统升级为原生安卓8.0、9.0等,让手机使用更加的方便,需要的用户快来最火网站下载吧!小米6刷原生安卓8.0简介小米6刷安卓9.0文件是为小米6用户提供的刷最新的安卓系统所需的文件,18年上线的安卓系统对于很多安卓粉丝来说还是很有吸引力的,如果你手上正好有一台小米6手机,可来下载这款文件来将自己…

    2022年6月19日
    35
  • Python 从菜鸟到大咖的必经之路「建议收藏」

    目录一、模块和包1.1模块的基础知识1.2模块的导入1.3使用第三方模块1.4包二、文件和目录操作2.1open()函数——打开文件并返回文件对象2.2文件操作的常用方法2.3应用三、面向对象3.1面向对象基础语法3.2初始化方法__init__3.3属性查找与绑定方法3.4案例3.4.1跑步案例3.4.2家具案例3.5私有属性3.6继承3.6.1面向对象的三大特性3.6.2单继承3.6.2.1继承的概念3.6.2.2继承的语法3.6.2.3方法的重写3.6.2.4

    2022年4月11日
    47
  • Cubieboard 架设Git服务器

    Cubieboard 架设Git服务器如果你现在用的是Cubieboard或者树莓派卡片式电脑,可以查看本文之前,学习前面的四个教程,它可能会对你非常有帮助。如果你是普通的Linux用户或者LinuxVPS、Linux独立服务器等,可以直接跳过查看本文。教程一Cubieboard安装Linux系统教程二CubieboardLinux服务器配置教程三CubieboardLinux服务器安装L…

    2022年7月22日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号