hive、hadoop面试题

hive、hadoop面试题有如下hive记录表records,记录车辆的过车信息:createtablerecords(idstring,//记录编号indatestring,//过车记录时间plate_nostring,//车辆号牌device_idint,//经过的设备编号)partitionedby(monthstring,daystring)rowformatdelimitedfieldsterminatedby’\t’storedasORC;1…

大家好,又见面了,我是你们的朋友全栈君。

有如下hive记录表records,记录车辆的过车信息:
create table records(
  id string, //记录编号
  indate string, //过车记录时间
  plate_no string, //车辆号牌
  device_id int, //经过的设备编号
)
partitioned by(month string,day string)
row format delimited fields terminated by ‘\t’ stored as ORC;

1请使用HQL得到最近一个月内晚上(晚22点-早6点)出现记录最多的车辆号牌Top10及次数
select
  plate_no,
  rank() over(sort by total desc) rk,
  total
from
  (
   select
   plate_no,
   count(1) total
   from
    (
     select
     indate,
     plate_no
     from
     records
     where
     From_unixtime(unix_timestamp(indate,”yyyy-MM-dd HH:mm:ss”),”yyyy-MM-dd”)>=date_sub(‘2020-04-26’,30)
     and
     From_unixtime(unix_timestamp(indate,”yyyy-MM-dd HH:mm:ss”),”yyyy-MM-dd”) <=’2020-04-26′
     and
     From_unixtime(unix_timestamp(indate,”yyyy-MM-dd HH:mm:ss”),”HH”) <=22
     and
     From_unixtime(unix_timestamp(indate,”yyyy-MM-dd HH:mm:ss”),”HH”) >=6
    )  t1
   group by plate_no
  ) t2
 where rk = 10

2请用spark RDD将上述表中indate、plate_no、device_id三个字段记录重复的数据只保留一条
object interview02 {

  def main(args: Array[String]): Unit = {

    val session: SparkSession = SparkSession.builder().master(“local[*]”).appName(“interview”).getOrCreate()
    val rdd: RDD[Row] = session.read.csv(“records”).rdd

    val distinct = rdd.map(row => ((“indate”,”plate_no”,”device_id”),(“id”)))
      .groupByKey()
    distinct.distinct().foreach(println)
    session.stop()
    }

}

3有string A和string B,分别由4096个随机的0或1组成,样例为String A = “01010111001….110010”,String B=”10101110….100101″,
现有公式double C=(A和B逐位与的和)/(A中1的个数*B中1的个数),请用自己熟悉的语言实现出满足此公式的方法。
public class Method {

    public static void main(String[] args) {

       

 String A = "0101010101101010";
        String B = "1010101010101011";

        char[] chars1 = A.toCharArray();
        char[] chars2 = B.toCharArray();
        int sum;
        Double sum2 = 0.0;
        int c = 0;
        int d = 0;
        for (int i = 0; i < chars1.length; i++) {
            char a = chars1[i];

//            for (int j= 0;j< chars2.length;j++){
            char b = chars2[i];


            sum = Integer.parseInt(String.valueOf(a)) & Integer.parseInt(String.valueOf(b));
            /* System.out.println(sum); */
            sum2 += sum;
        }
        for (int j = 0; j < chars1.length; j++) {
            char a = chars1[j];

            char b = chars2[j];
            if (Integer.parseInt(String.valueOf(a)) == 1) {

                c += 1;


            }
            if (Integer.parseInt(String.valueOf(b)) == 1) {

                d += 1;


            }



        }
        Double C = sum2/(c*d);
        System.out.println(sum2);
        System.out.println(c);
        System.out.println(d);
        System.out.println(C);

    }
}

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149946.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 中国的程序员数量是否已经饱和或者过剩?「建议收藏」

    中国的程序员数量是否已经饱和或者过剩?「建议收藏」根据教育部数据显示:2020年本科毕业生人数874万人。《2020年中国大学生就业报告》显示:计算机类本科生在2020届毕业生数量中稳居前10。每年都有源源不断的新生力量加入程序员大军。另一方面,5G时代到来,对于互联网行业来说,未来将会有更多机会。各大互联网公司进入了新一轮技术资源抢占与加速发展;经过疫情的洗礼,各大传统企业也纷纷加入转型大军,重点发展线上业务;从国家“新基建”的行业分布来看,大多涉及互联网IT行业,预示了未来科学技术的发展走向……可以看到IT行业技术不断更新,专业IT人才随时都处

    2022年8月31日
    2
  • [gdc15]<暗黑破坏神3>中的合作模式设计

    [gdc15]<暗黑破坏神3>中的合作模式设计本文中,kevin老师分享暗黑设计团队从游戏的早期一直到现在夺魂之镰资料片,一路过来的探索,纠结和沉淀。最后能逐渐把设计做的更好(有的地方大幅度的简化,不纠结,有些地方则有所增强),kevin老师建立在对于D3本质的认知上,产生了一系列的哲学和原则。

    2022年6月2日
    38
  • windows下安装 redis并开机自启动

    windows下安装 redis并开机自启动

    2021年11月23日
    39
  • 将截断字符串或二进制数据是什么意思_截取字符串中的一部分

    将截断字符串或二进制数据是什么意思_截取字符串中的一部分今天做数据库练习的时候,往一个student表中在新建查询中用T-Sql语句插入一条记录。insertintostudentvalues(‘090120′,’陈冬’,’男’,19,’信息系’,’1234567′)系统老显示:将截断字符串或二进制数据,语句已结束。……………………原因:找到student表,查看表的数据类型,才知道在定义ssex时,把ssex的数据类型定义为:c…

    2022年10月7日
    2
  • 测试用例的八大要素

    测试用例的八大要素测试用例的八大要素1.用例编号和其他编号一样,测试用例编号是用来唯一识别测试用例的编号,要求具有易识别和易维护性,用户可以很容易根据用例编号获取到相应用例的目的和作用,在系统测试用例中,编号的一般格式为A-B-C-D这几部分的作用分别如下:A:产品或项目类型,如CMS(内容管理系统)、CRM(客户关系管理系统)B:一般用来说明用例的属性,如ST(系统测试)、IT(集成测试)、UT(单元测试)C:测试需求的表示,说明该用例针对的需求点,可包括测试项和测试子项等,如文档管理、客户投诉信息管理等。通

    2022年6月28日
    33
  • webpack es6转es5_nodejs支持es6吗

    webpack es6转es5_nodejs支持es6吗万恶的IE遗臭万年仍然需要填坑ie标准对html/css甚至js的规范简直相差甚远,所以,一般要解决的兼容问题很大一部分是为了解决ie的不兼容,虽然目前流行的ES6语法及规范将IE的考虑抛弃掉,默认放弃对IE的治疗,但是IE的兼容仍然是个问题!即使IE的使用率已经不到1%的市场占比。我们使用着舒服的ES6规范但是为IE又很头疼怎么办呢?Webpack开发了非常厉害的打包转换功能:转ES5!…

    2022年9月25日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号