准备数据集用于flink学习

准备数据集用于flink学习

欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;

在学习和开发flink的过程中,经常需要准备数据集用来验证我们的程序,阿里云天池公开数据集中有一份淘宝用户行为数据集,稍作处理后即可用于flink学习;

下载

  1. 下载地址:
    https://tianchi.aliyun.com/dataset/dataDetail?spm=a2c4e.11153940.0.0.671a1345nJ9dRR&dataId=649

  2. 如下图所示,点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无法在excel打开,因此下载体积小一些的UserBehavior.csv):
    在这里插入图片描述

  3. 该CSV文件的内容,一共有五列,每列的含义如下表:

列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳 行为发生的时间戳
时间字符串 根据时间戳字段生成的时间字符串
  1. 下载完毕后用excel打开,如下图所示:
    在这里插入图片描述

增加一个字段

为了便于检查数据,接下来在时间戳字段之后新增一个字段,内容是将该行的时间戳转成时间字符串

  1. 如下图,在F列的第一行位置输入表达式,将E1的时间戳转成字符串:
    在这里插入图片描述
  2. 上图红框中的表达式内容如下:
=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")
  1. !!!有个问题要格外注意!!!:上述表达式中,由于8*3600的作用,得到的时间字符串实际上是东八区时区的时间,在flink sql中,如果用DATE_FORMAT函数计算timestamp也能得到时间字符串,但是这个字符串是格林尼治时区,此时两个时间字符串的值就不同了,例如从F列看2017/11/12和2017/11/13各一条记录,但是DATE_FORMAT函数计算timestamp得到的却是2017/11/12有两条记录,解决这个问题的办法就是将表达式中的8*3600去掉,大家都用格林尼治时区;
  2. 表达式生效后,F1的内容就是E1的时间字符串,接下来F列的所有记录都作转换,鼠标放在下图红框位置时,会出现十字架标志,在此标志上双击鼠标:

在这里插入图片描述
5. 完成后如下图,F列的时间信息更利于我们开发过程中核对数据:

在这里插入图片描述

修复乱序

  1. 此时的CSV文件中的数据并不是按时间字段排序的,如下图:
    在这里插入图片描述
  2. flink在处理上述数据时,由于乱序问题可能会导致计算结果不准,以上图为例,在处理红框2中的数据时,红框3所对应的窗口早就完成计算了,虽然flink的watermark可以容忍一定程度的乱序,但是必须将容忍时间调整为7天才能将红框3的窗口保留下来不触发,这样的watermark调整会导致大量数据无法计算,因此,需要将此CSV的数据按照时间排序再拿来使用;
  3. 如下图操作即可完成排序:

在这里插入图片描述
4. 完成排序后如下图所示:

在这里插入图片描述
至此,一份淘宝用户行为数据集就准备完毕了,接下来的文章将会用此数据进行flink相关的实战;

直接下载准备好的数据

  1. 为了便于您快速使用,上述调整过的CSV文件我已经上传到CSDN,地址:
    https://download.csdn.net/download/boling_cavalry/12381698
  2. 也可以在我的Github下载,地址:
    https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z

欢迎关注公众号:程序员欣宸

微信搜索「程序员欣宸」,我是欣宸,期待与您一同畅游Java世界…
https://github.com/zq2599/blog_demos

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/2627.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql查看数据库端口(sqlserver数据库端口查看)

    默认端口为3306,也可以执行以下命令查询:showglobalvariableslike’port’;

    2022年4月10日
    37
  • python+opencv图像模板匹配—单模板匹配

    python+opencv图像模板匹配—单模板匹配

    2021年10月6日
    43
  • origin2021安装教程【附详细图文教程+安装包】

    origin2021安装教程【附详细图文教程+安装包】originpro2021是一款功能非常强大的数据分析软件,它支持处理信号处理,数据处理,统计信息,图形和报告等功能,各位可以将需要分析的数据导入至软件中,它目前支持ASCII、Excel、NITDM、DIADem、NetCDF、SPC等类型的数据文件,软件内为各位用户准备了查询工具可以直接访问数据库数据,并且支持将存储在数据库的文件直接导入至工作表中,这样可以保护数据的安全,保证数据完整等。在最新推出的originpro2021中为各位带来了很多更加优秀的功能,比如全新的颜色管理器,用户可以使用这

    2022年6月12日
    182
  • SSDP协议_Smb协议

    SSDP协议_Smb协议SSDP就是简单服务发现协议(SimpleServiceDiscoveryProtocol)是一种应用层协议,它是构成通用即插即用(也就是UPnP,UPnP是各种各样的智能设备、无线设备和个人电脑等实现遍布全球的对等网络连接的结构)技术的核心协议之一。    简单服务发现协议提供了在局部网络里面发现设备的机制。控制点(也就是接受服务的客户端)能够直接通过使用简单服务发现协议,根据自己的需要查询…

    2022年10月11日
    3
  • 人民币符号输入的几种方法图片_元的符号怎么打出来

    人民币符号输入的几种方法图片_元的符号怎么打出来人民币符号输入的几种方法直接利用键盘输入¥ shift+4(键盘第二行数字,中文输入法)¥Alt+41892(右侧小键盘数字,GBK,全角)¥Alt+0165(右侧小键盘数字,Unicode)C/C++输出#include<iostream>//只用C语言的话,可将这两行换为usingnamespacestd;//#includ…

    2025年8月8日
    3
  • 操作系统银行家算法C语言代码实现「建议收藏」

    操作系统银行家算法C语言代码实现「建议收藏」计算机操作系统课设需要,写了两个下午的银行家算法(陷在bug里出不来耽误了很多时间),参考计算机操作系统(汤子瀛)实现过程中不涉及难度较大的算法,仅根据银行家算法的思想和步骤进行实现。以下为详细步骤

    2022年7月4日
    23

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号