kfold参数_kinfolk中文版

kfold参数_kinfolk中文版sklearn中的KFold与StratifiedKFold函数的使用

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

最近使用到了skearn做数据集的处理,记录一下这两个个比较重要的函数:KFold与StratifiedKFold,作用是在机器学习中进行交叉验证来使用
这两个函数都是sklearn模块中的,在应用之前应该导入:

from sklearn.model_selection import  StratifiedKFold,KFold

两者的区别:StratifiedKFold函数采用分层划分的方法(分层随机抽样思想),验证集中不同类别占比与原始样本的比例保持一致,故StratifiedKFold在做划分的时候需要传入标签特征。
下面分别对这两个函数进行举例子说明:
1、KFold函数
参数说明:

n_splits: 默认为3,表示将数据划分为多少份,即k折交叉验证中的k;
shuffle: 默认为False,表示是否需要打乱顺序,这个参数在很多的函数中都会涉及,如果设置为True,则会先打乱顺序再做划分,如果为False,会直接按照顺序做划分;
random_state: 默认为None,表示随机数的种子,只有当shuffle设置为True的时候才会生效。

代码:

import numpy as np
from sklearn.model_selection import KFold,StratifiedKFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4],[5,9],[1,5],[3,9],[5,8],[1,1],[1,4]])
y = np.array([0, 1, 1, 1, 0, 0, 1, 0, 0, 0])

print('X:',X)
print('y:',y)

seed = 7
np.random.seed(seed)
kf = KFold(n_splits=3, shuffle=False)

print(kf)
#做split时只需传入数据,不需要传入标签
for train_index, test_index in kf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

结果输出:

X: [[1 2]
 [3 4]
 [1 2]
 [3 4]
 [5 9]
 [1 5]
 [3 9]
 [5 8]
 [1 1]
 [1 4]]
y: [0 1 1 1 0 0 1 0 0 0]
KFold(n_splits=3, random_state=None, shuffle=False)
TRAIN: [4 5 6 7 8 9] TEST: [0 1 2 3]
TRAIN: [0 1 2 3 7 8 9] TEST: [4 5 6]
TRAIN: [0 1 2 3 4 5 6] TEST: [7 8 9]

输出说明:
大家注意到,输出中每个Train和Test都对应三个结果,是因为我们在调用函数是,参数n_splits=3,即交叉验证三次。其中的数字只是对应索引,并不是真正的数据,比如第一行TEST: [0 1 2 3]代表着:测试集选取了X[0,1,2,3]即对应:
[1 2]
[3 4]
[1 2]
[3 4]
其他同理。
1、StratifiedKFold函数
StratifiedKFold函数的参数与KFold相同。

import numpy as np
from sklearn.model_selection import KFold,StratifiedKFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4],[5,9],[1,5],[3,9],[5,8],[1,1],[1,4]])
y = np.array([0, 1, 1, 1, 0, 0, 1, 0, 0, 0])

print('X:',X)
print('y:',y)

skf = StratifiedKFold(n_splits=4)
print(skf)

#做划分是需要同时传入数据集和标签
for train_index, test_index in skf.split(X, y):
    print('TRAIN:', train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

结果输出:

X: [[1 2]
 [3 4]
 [1 2]
 [3 4]
 [5 9]
 [1 5]
 [3 9]
 [5 8]
 [1 1]
 [1 4]]
y: [0 1 1 1 0 0 1 0 0 0]
StratifiedKFold(n_splits=4, random_state=None, shuffle=False)
TRAIN: [2 3 5 6 7 8 9] TEST: [0 1 4]
TRAIN: [0 1 3 4 6 8 9] TEST: [2 5 7]
TRAIN: [0 1 2 4 5 6 7 9] TEST: [3 8]
TRAIN: [0 1 2 3 4 5 7 8] TEST: [6 9]

参考文章:https://zhuanlan.zhihu.com/p/150446294

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193512.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Java 实现异步调用

    Java 实现异步调用首先我遇到的问题是接口调用时需要更新缓存而更新缓存又是个说快不快的过程所以打算做异步调用返回我所需要的结果即可,至于缓存什么时候更新完就不是我所需要关注的了废话不多说上代码publicclassMyExecutor{  privateExecutorServiceexecutor=Executors.newCachedThreadPool();  publi…

    2022年7月27日
    13
  • 阿里云mqtt服务器_阿里云ecs新手教程

    阿里云mqtt服务器_阿里云ecs新手教程概述本篇主要讲述使用MQTTX软件与阿里云进行连接,上篇文章open62541基于mqtt订阅发布中有有关MQTTX软件的下载以及使用。建立连接这里我们使用MQTTX与阿里云建立连接,阿里云地址:https://iot.console.aliyun.com/lk/summary/new这里我们进行注册以及实名认证后进行登录,登录后界面如下所示:一定要实名认证后才可以使用,使用支付宝实名认证很快也很简单登录后我们就可以开始操作了。添加产品点击公共用例后就会跳转到添加产品界面,如下图所

    2025年8月9日
    3
  • qt tabwidget使用_word横向表格变竖向

    qt tabwidget使用_word横向表格变竖向QTabWidget竖向QTabBar横向

    2022年9月23日
    4
  • 行测题库图形推理_2021年考公务员

    行测题库图形推理_2021年考公务员事业单位考试中,判断推理是占据一定的地位的,其中图形推理是大家经常见到的。然而,有的考生会觉得这类题目有些难,像“相亲”一样,都是看眼缘。实则不然,图形推理有它自己的规律,大家需要根据图形特征去识别该题对应的规律。比如图形相似我们可以从位置变化或者是组合叠加角度上去考虑。如果相似度很高我们更建议大家考虑位置变化,那今天中公教育老师带大家来看一下何为位置变化。1.从所给的四个选项中,选择最合适的一个…

    2025年10月17日
    7
  • Faster R-CNN算法

    Faster R-CNN算法  FasterR-CNN算法是作者RossGirshick对FastR-CNN算法的一种改进。FastR-CNN在速度和精度上都有了不错的结果,但仍有一些不足之处。FasterR-CNN算法同样使用VGG-16网络结构,检测速度在GPU上达到5fps(包括候选区域的生成),准确率也有进一步的提升。在ILSVRC和COCO2015竞赛中获得多个项目的第一名。在FasterR-CNN中提出了区域生成网络(RegionProposalNetwork,RPN),将候选区域的提取和FastR-C

    2025年10月5日
    3
  • 噪声熵和损失熵的定义_归一化信噪比

    噪声熵和损失熵的定义_归一化信噪比利用K-L散度(相对熵)确定VMD分解信号的K值和惩罚因子alpha,得到一组信号分量;计算各个分量的样本熵,根据样本熵的值,选取出噪声主导分量和有效分量;对噪声主导信号进行非局部均值(NLM)去噪;将去噪后的信号分量与剩余的有效信号分量进行重构得到去噪信号。

    2025年6月8日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号