pig用法_animals

pig用法_animals1.pig运行模式本地模式:pig-xlocal直接访问本地磁盘集群模式:pig或者pig-xmapreduce2.piglatin交互帮助信息help上传本地文件到

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

1.pig运行模式

本地模式: pig -x local  

 直接访问本地磁盘

集群模式: pig  或者 pig -x mapreduce

2.pig latin 交互

帮助信息 help

pig用法_animals

上传本地文件到hdfs中

pig用法_animals

查看内容 cat 

pig用法_animals

 加载数据

grunt> A = load '/pig/input/a.data' using PigStorage('\t');  --加载文件,并用冒号’\t‘将数据分离为多个字段
grunt> B = foreach A generate $0 as id; --将每一次迭代的第一个元祖数据作为id
grunt> dump B; 在命令行输出结果

pig用法_animals

 执行成功,如下展示:

pig用法_animals

 计算结果

pig用法_animals

 3. 小试牛刀

1)、加载学生信息

student = load ‘/pig/input/student.data’ using PigStorage(‘,’) as (id:long,name:chararray,class:int,state:int);

2)过滤 符合条件的数据

filterStudent= filter student by state==1;

3)展示每个班的学生

groupStudentByClass= group student by class parallel 2;

dump groupStudentByClass;

pig用法_animals

4)统计每个班的人数

groupclass= foreach groupStudentByClass generate $0 as sid,COUNT($1) as total;

dump groupclass;

pig用法_animals

5)join

studentTeacher = join student by class,teacher by clazz;

dump studentTeacher;

pig用法_animals

参考资料:

https://www.ibm.com/developerworks/cn/linux/l-apachepigdataquery/

http://pig.apache.org/docs/r0.16.0/start.html

Apache Pig的一些基础概念及用法总结

<pig编程指南>

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/168014.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Cookie禁用了,Session还能用吗?原因详解

    Cookie禁用了,Session还能用吗?原因详解

    2021年11月5日
    38
  • 精选推荐最新10个优秀源码下载网站超值收藏

    精选推荐最新10个优秀源码下载网站超值收藏以下十个网站是经本人精心收集,亲身体验过,才推荐给大家的。1.源码之家http://www.mycodes.net;;国内流量最大的源码下载站,下载点较多,速度一般,比较稳定,死链少2.果核网https://www.guohew.cn新兴的源码下载站,下载速度快.,源码更新速度较快、源码较全,还有模板、素材下载及一些不错的技术文章,是个值得收藏的站点!3.源码网http://www.yuanmawang.com新崛起的专业网站源码下载门户站,更新速度快较稳定,死链少,下载速度快….

    2022年7月20日
    38
  • Linux 系统 top 命令详解

    Linux 系统 top 命令详解文章目录前言top命令关键词详解1.VIRT:virtualmemoryusage虚拟内存2.RES:residentmemoryusage常驻内存3.SHR:sharedmemory共享内存4.DATA:数据占用的内存5.top运行中的交互命令top命令图解前言top命令是Linux下常用的性能分析工具,能够实时显示系统状况,比如cpu、内存的使用等。以下详细介绍top命令。top命令关键词详解1.VIRT:virtualmemoryusa

    2025年11月28日
    5
  • 经典面试题 HTTPS和HTTP有什么区别?[通俗易懂]

    经典面试题 HTTPS和HTTP有什么区别?[通俗易懂]使用HTTPS协议可认证用户和服务器,确保数据发送正确;HTTPS协议要比http协议安全,防止数据不被窃取、改变,确保数据的完整性;HTTPS是现行架构下比较安全的解决方案,大幅增加了中间人攻击的成本。相比之HTTP,HTTPS已经是现行架构下比较安全的解决方案,也需要我们再不断学习,跟上时代技术的迭代。

    2022年10月16日
    3
  • spider crawled. red bottom shoes「建议收藏」

    Hewasamostnotoriousblasphemer,andhispoweroflanguagewassoextraordinarywhicheverybodyutilizedtod…

    2022年4月10日
    35
  • nginx 防火墙、权限问题

    nginx 防火墙、权限问题

    2021年10月12日
    42

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号