准备数据集用于flink学习

准备数据集用于flink学习

欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;

在学习和开发flink的过程中,经常需要准备数据集用来验证我们的程序,阿里云天池公开数据集中有一份淘宝用户行为数据集,稍作处理后即可用于flink学习;

下载

  1. 下载地址:
    https://tianchi.aliyun.com/dataset/dataDetail?spm=a2c4e.11153940.0.0.671a1345nJ9dRR&dataId=649

  2. 如下图所示,点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无法在excel打开,因此下载体积小一些的UserBehavior.csv):
    在这里插入图片描述

  3. 该CSV文件的内容,一共有五列,每列的含义如下表:

列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳 行为发生的时间戳
时间字符串 根据时间戳字段生成的时间字符串
  1. 下载完毕后用excel打开,如下图所示:
    在这里插入图片描述

增加一个字段

为了便于检查数据,接下来在时间戳字段之后新增一个字段,内容是将该行的时间戳转成时间字符串

  1. 如下图,在F列的第一行位置输入表达式,将E1的时间戳转成字符串:
    在这里插入图片描述
  2. 上图红框中的表达式内容如下:
=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")
  1. !!!有个问题要格外注意!!!:上述表达式中,由于8*3600的作用,得到的时间字符串实际上是东八区时区的时间,在flink sql中,如果用DATE_FORMAT函数计算timestamp也能得到时间字符串,但是这个字符串是格林尼治时区,此时两个时间字符串的值就不同了,例如从F列看2017/11/12和2017/11/13各一条记录,但是DATE_FORMAT函数计算timestamp得到的却是2017/11/12有两条记录,解决这个问题的办法就是将表达式中的8*3600去掉,大家都用格林尼治时区;
  2. 表达式生效后,F1的内容就是E1的时间字符串,接下来F列的所有记录都作转换,鼠标放在下图红框位置时,会出现十字架标志,在此标志上双击鼠标:

在这里插入图片描述
5. 完成后如下图,F列的时间信息更利于我们开发过程中核对数据:

在这里插入图片描述

修复乱序

  1. 此时的CSV文件中的数据并不是按时间字段排序的,如下图:
    在这里插入图片描述
  2. flink在处理上述数据时,由于乱序问题可能会导致计算结果不准,以上图为例,在处理红框2中的数据时,红框3所对应的窗口早就完成计算了,虽然flink的watermark可以容忍一定程度的乱序,但是必须将容忍时间调整为7天才能将红框3的窗口保留下来不触发,这样的watermark调整会导致大量数据无法计算,因此,需要将此CSV的数据按照时间排序再拿来使用;
  3. 如下图操作即可完成排序:

在这里插入图片描述
4. 完成排序后如下图所示:

在这里插入图片描述
至此,一份淘宝用户行为数据集就准备完毕了,接下来的文章将会用此数据进行flink相关的实战;

直接下载准备好的数据

  1. 为了便于您快速使用,上述调整过的CSV文件我已经上传到CSDN,地址:
    https://download.csdn.net/download/boling_cavalry/12381698
  2. 也可以在我的Github下载,地址:
    https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z

欢迎关注公众号:程序员欣宸

微信搜索「程序员欣宸」,我是欣宸,期待与您一同畅游Java世界…
https://github.com/zq2599/blog_demos

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/2627.html原文链接:https://javaforall.net

(0)
上一篇 2020年11月19日 下午10:40
下一篇 2020年11月19日 下午10:40


相关推荐

  • ATA考试该注意什么[通俗易懂]

    ATA考试该注意什么[通俗易懂]一、考试前将所有计算机除掉还原卡及还原软件。二、officeXp安装要用完全安装。三、服务器端尽量不要刷新所有客户端否则引起考试管理系统死机。四、拍照功能无法使用,可重新启动考试管理系统。五、服务器端无法扫描到客户端,除了服务器与客户端必须在同一网段内,可看一下客户端是否启动llistening…

    2022年7月13日
    17
  • C#区分中英文统计字符串的长度

    C#区分中英文统计字符串的长度

    2021年8月5日
    56
  • scheduleAtFixedRate和scheduleWithFixedDelay

    scheduleAtFixedRate和scheduleWithFixedDelay来自 http www cnblogs com trust freedom p 6594270 htmlSchedule scheduleAtFi 指的是 以固定的频率 执行 period 周期 指的是两次成功执行之间的时间比如 scheduleAtFi command 5 2 second 第一次开始执

    2026年3月16日
    3
  • C#网络编程(Socket编程)「建议收藏」

    C#网络编程(Socket编程)「建议收藏」一、Socket网络编程1.Socket是什么?在计算机通信领域,Socket被译为“套接字”。它是计算机之间进行通信的一种约定或一种方式。通过Socket这种约定可以接收到其他计算机的数据,也可以向其他计算机发送数据。2.本质是编程接口(API),对于TCP/IP的封装,TCP/IP也提供了可供程序员做网络开发所用的接口3.作用Socket的英文原意是“插座”,的意思,通常在计算机编…

    2022年7月13日
    15
  • TinyXML用法小结[通俗易懂]

    TinyXML用法小结[通俗易懂]TinyXML用法小结1.     介绍Tinyxml的官方网址:http://www.grinninglizard.com官方介绍文档:http://www.grinninglizard.com/tinyxmldocs/tutorial0.html在TinyXML中,根据XML的各种元素来定义了一些类:TiXmlBase:整个TinyXML模型的基类。TiXmlAttr…

    2022年5月7日
    92
  • LoRaWAN架构简介

    LoRaWAN架构简介LoRaWAN 整体概览 LoRaWAN 协议层次 LoRaWAN 是定义在 LoRa 无线调制技术上的一整套通信协议 类似 TCP IP 协议 LoRaWAN 整个协议的架构图分为几层 绿色的 Application 层是给用户提供数据使用的 主要由用户自己根据需求来进行开发就好 蓝色的 MAC 层是 LoRa 的链接层协议 更详细的内容在 LoRaWAN 标准中可以查看 棕色的 LoRaModulati 对应 OSI 的物理层协议 在具体的应用中 其实就是指 sx127x 或 sx12

    2026年3月26日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号