fast比赛_大数据竞赛

fast比赛_大数据竞赛以Kaggle比赛为例讲解Fastai的具体比赛中Pipeline构建方法。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

竞赛实战

简介

可以说,Fastai的出现给Kaggle上很多以迁移学习为主的比赛带来了新的方法,冲击了很多传统框架,因为Fastai的封装更多更详细,使用者更方便。本文以一个简单的分类赛为例,介绍如何在Kaggle中使用Fastai取得不错的成绩。本文只列举代码的细节,主要是Fastai解决视觉问题的Pipeline,具体框架用法不多设计,我的系列博客已经具体讲解了。

赛题

比赛链接,老生常谈的MNIST手写体分类,是Kaggle上一个入门级别的赛事,关于Kaggle赛事级别类型等可以参考我的博客

由于给出的数据集为表格数据,预先处理为了本地的JPG图片并按照ImageNet数据集的风格进行文件存储,方便Fastai
读取。

数据准备

本地数据集的存放格式如下。

mnist\
    train\
        0\
        1\
        2\
        ...
        9\
    test\

Fastai要读取这个数据集非常简单,使用ImageDataBunchfrom_folder方法即可,读取之后这里按照ImageNet的统计信息进行了标准化。

tfms = transform.get_transforms(do_flip=False, max_rotate=5.0)  # 数据变换

db = ImageDataBunch.from_folder(
    "../train/",
    test="../test/",
    valid_pct=0.15,  # 划分训练集
    bs=64,
    size=224,
    ds_tfms=tfms,
)
db = db.normalize(imagenet_stats)

得到的数据集输出信息如下。

ImageDataBunch;

Train: LabelList (35700 items)
x: ImageList
Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224)
y: CategoryList
5,5,5,5,5
Path: ../train;

Valid: LabelList (6300 items)
x: ImageList
Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224)
y: CategoryList
5,9,9,9,0
Path: ../train;

Test: LabelList (28000 items)
x: ImageList
Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224),Image (3, 224, 224)
y: EmptyLabelList
,,,,
Path: ../train

学习器构建

通过cnn_learner方法根据resnet模型构建学习器并采用在Imagenet上预训练的参数,成功构建学习器。

learn = learner.cnn_learner(db, models.wide_resnet50_2, metrics=[accuracy, ], model_dir="/tmp/models", callback_fns=ShowGraph)

上面设置了数据集、模型、指标、模型存放地址以及预先添加的回调,这种回调添加方式表示自动依据当前learner创建默认参数的回调对象而不必像fit时那样初始化对象,通常,这种方法更加普遍。

模型训练

首先通过LR_Finder来搜索合适的学习率(只需要调用学习器的lr_find方法),最后确定了合适的学习率区间。

learn.unfreeze()  # 解冻所有层
learn.lr_find()  # 迭代找寻最优学习率
learn.recorder.plot()

在这里插入图片描述

接着,按照合适的学习率区间使用one cycle策略进行50轮的训练(解冻所有层),结果如下。

在这里插入图片描述

推理分析

利用learner生成解释器,可视化识别最差的图片以及混淆矩阵。

interpreter.plot_top_losses(6)

在这里插入图片描述

interpreter.plot_confusion_matrix()

在这里插入图片描述

然后,进行测试集上的结果推理,这里注意的是数据集读取的API不是按照要求输出的编号顺序来的,是乱序的,输出的时候要纠正顺序再写入提交的csv文件。

score, y = learn.get_preds(fastai.vision.DatasetType.Test)
lab = np.argmax(score, axis=1)
Id = [int(os.path.splitext(filename)[0]) + 1 for filename in os.listdir(test_folder)]   # 还原id
df_submit['ImageId'] = Id
df_submit['Label'] = lab

结果提交

得到了合适的CSV文件就可以在平台上进行提交,平台很快会给出public测试的分数,本比赛采用的是准确率作为指标,上述数十行代码获得的得分为0.99700,排名为161/2292,而这只是一个baseline代码,这说明,fastai在比赛这个领域是非常实用的框架,且它支持PyTorch的一切功能,对PyTorch的用户也非常友好。

在这里插入图片描述

补充说明

本文主要演示了使用Fastai在比赛中如何构建一个Pipeline的baseline,具体代码开源于我的Github,欢迎star或者fork。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/196202.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Android屏幕适配全攻略(最权威的官方适配指导)[通俗易懂]

    Android屏幕适配全攻略(最权威的官方适配指导)[通俗易懂]Android的屏幕适配一直以来都在折磨着我们这些开发者,本篇文章以Google的官方文档为基础,全面而深入的讲解了Android屏幕适配的原因、重要概念、解决方案及最佳实践,我相信如果你能认真的学习本文,对于Android的屏幕适配,你将不再有疑惑!Android屏幕适配出现的原因在

    2022年5月29日
    33
  • 扩充NetCMS的功能:添加{TM:Repeater}{/TM:Repeater}标签[通俗易懂]

    扩充NetCMS的功能:添加{TM:Repeater}{/TM:Repeater}标签[通俗易懂]本文档为{TM:Repeater}{/TM:Repeater}标签的说明文档,创建的目标是打算制造一个系列文档的索引,索引的目标是关于这个标签的相关文档。简要说明:NetCMS1.7(以下简称NT)并非十分完善,里面包含了数量众多的BUG不说,功能上也带着一些欠缺。比如说这次之所以添加新标签的念头,就是原有的网站结构不完善。NT的是三级网站结构:“首页-列表页—详细页”。而实际…

    2022年9月28日
    0
  • 练习PYTHON之EVENTLET

    练习PYTHON之EVENTLET

    2021年9月10日
    45
  • Scripting.FileSystemObject控件的用法「建议收藏」

    Scripting.FileSystemObject控件的用法「建议收藏」文件系统对象FSO的英文全称是FileSystemObject,这种对象模型提出了有别于传统的文件操作语句处理文件和文件夹的方法。通过采用object.method这种在面向对象编程中广泛使用的语法,将一系列操作文件和文件夹的动作通过调用对象本身的属性直接实现。在jsp中,Scripting.FileSystemObject控件调用可以直接在js中使用这个控件varf

    2022年7月14日
    12
  • 【Android】 RecyclerView、ListView实现单选列表的优雅之路.

    【Android】 RecyclerView、ListView实现单选列表的优雅之路.转载请标明出处:http://blog.csdn.net/zxt0601/article/details/52703280本文出自:【张旭童的博客】一概述:这篇文章需求来源还是比较简单的,但做的优雅仍有值得挖掘的地方。需求来源:一个类似饿了么这种电商优惠券的选择界面:其实就是一个普通的列表,实现了单选功能,效果如图:(不要怪图渣了,我撸了四五遍,公司录出来的GIF就这么

    2022年5月30日
    30
  • 指令重排详解_cpu指令重排序

    指令重排详解_cpu指令重排序指令重排:编译器指令重排,cpu指令重排,内存指令重排。编译器可能会调整顺序,如下图,左边是c++源码,右边是优化后顺序一条汇编指令的执行是可以分为很多步骤的,分为不同的硬件执行取指IF译码和取寄存器操作数ID执行或者有效地址计算EX(ALU逻辑计算单元)存储器访问MEM写回WB(寄存器)指令重排只可能发生在毫无关系的指令之间,如果指令之间存在依赖关系,则不会重排。单线程内程序的执行结果不能被改变。1原子性是指一个操作是不可中断的.

    2022年10月17日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号