python的数据处理_基于python的数据处理

python的数据处理_基于python的数据处理源起:1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。3.在编码过程中有一的误区需要注意:这个sklearn官方给出的文档>>>importnumpyasnp>>>fromsklearn.mo…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

源起:

1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。

2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。

3.在编码过程中有一的误区需要注意:

这个sklearn官方给出的文档>>> import numpy as np

>>> from sklearn.model_selection import KFold

>>> X = [“a”, “b”, “c”, “d”]

>>> kf = KFold(n_splits=2)

>>> for train, test in kf.split(X):

… print(“%s %s” % (train, test))

[2 3] [0 1]

[0 1] [2 3]

我之前犯的一个错误是将train,test理解成原数据集分割成子数据集之后的子数据集索引。而实际上,它就是原始数据集本身的样本索引。

源码:# -*- coding:utf-8 -*-

# 得到交叉验证数据集,保存成CSV文件

# 输入是一个包含正常恶意标签的完整数据集,在读数据的时候分开保存到datasetBenign,datasetMalicious

# 分别对两个数据集进行KFold,最后合并保存

from sklearn.model_selection import KFold

import csv

def writeInFile(benignKFTrain, benignKFTest, maliciousKFTrain, maliciousKFTest, i, datasetBenign, datasetMalicious):

newTrainFilePath = “E:\\hadoopExperimentResult\\5KFold\\AllDataSetIIR10\\dataset\\ImbalancedAllTraffic-train-%s.csv” % i

newTestFilePath = “E:\\hadoopExperimentResult\\5KFold\\AllDataSetIIR10\\dataset\\IImbalancedAllTraffic-test-%s.csv” % i

newTrainFile = open(newTrainFilePath, “wb”)# wb 为防止空行

newTestFile = open(newTestFilePath, “wb”)

writerTrain = csv.writer(newTrainFile)

writerTest = csv.writer(newTestFile)

for index in benignKFTrain:

writerTrain.writerow(datasetBenign[index])

for index in benignKFTest:

writerTest.writerow(datasetBenign[index])

for index in maliciousKFTrain:

writerTrain.writerow(datasetMalicious[index])

for index in maliciousKFTest:

writerTest.writerow(datasetMalicious[index])

newTrainFile.close()

newTestFile.close()

def getKFoldDataSet(datasetPath):

# CSV读取文件

# 开始从文件中读取全部的数据集

datasetFile = file(datasetPath, ‘rb’)

datasetBenign = []

datasetMalicious = []

readerDataset = csv.reader(datasetFile)

for line in readerDataset:

if len(line) > 1:

curLine = []

curLine.append(float(line[0]))

curLine.append(float(line[1]))

curLine.append(float(line[2]))

curLine.append(float(line[3]))

curLine.append(float(line[4]))

curLine.append(float(line[5]))

curLine.append(float(line[6]))

curLine.append(line[7])

if line[7] == “benign”:

datasetBenign.append(curLine)

else:

datasetMalicious.append(curLine)

# 交叉验证分割数据集

K = 5

kf = KFold(n_splits=K)

benignKFTrain = []; benignKFTest = []

for train,test in kf.split(datasetBenign):

benignKFTrain.append(train)

benignKFTest.append(test)

maliciousKFTrain=[]; maliciousKFTest=[]

for train,test in kf.split(datasetMalicious):

maliciousKFTrain.append(train)

maliciousKFTest.append(test)

for i in range(K):

print “======================== “+ str(i)+ ” ========================”

print benignKFTrain[i], benignKFTest[i]

print maliciousKFTrain[i],maliciousKFTest[i]

writeInFile(benignKFTrain[i], benignKFTest[i], maliciousKFTrain[i], maliciousKFTest[i], i, datasetBenign,

datasetMalicious)

datasetFile.close()

if __name__ == “__main__”:

getKFoldDataSet(r”E:\hadoopExperimentResult\5KFold\AllDataSetIIR10\dataset\ImbalancedAllTraffic-10.csv”)

END

f2dbd1f4babcefba6c001b09292a3be8.png

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193725.html原文链接:https://javaforall.net

(0)
上一篇 2025年11月19日 下午9:01
下一篇 2025年11月19日 下午9:43


相关推荐

  • Linux:20个linux常用命令

    Linux:20个linux常用命令文章目录 20 个 linux 常用命令 1 ls 列出文件 list2 cd 切换目录 changedirect cp 复制 copy4 mv 移动 move5 rm 移除 删除 remove6 mkdir 创建文件夹 makedirector rmdir 移除 删除文件夹 removedirect chown 更改所有者 changeowner9 chmod 更改文件的权限模式 changemode10 find 查找 11 管道 12 grep 按行查找并匹配 13 tar

    2026年3月17日
    1
  • Windows系统下DeepSeek API调用全攻略

    Windows系统下DeepSeek API调用全攻略

    2026年3月15日
    3
  • 关于前端项目经验

    关于前端项目经验按着套路的话来讲 一般的指标就是这样 项目名称项目描述具体职责 nbsp 当然 还可以更细化 国内的招聘站点 都有简历模板 填填空就可以了 也可以证明你在这些方面有造诣并且可以让人可以看的出的 demo 可以传到 github 之类的可在线预览的 列举几个站点 并注明参与了哪些部分 nbsp 学到了哪些知识 nbsp 首先项目经验一定要务实 因为基本是一定会被问到的 你在项目中的位置 上面有

    2026年3月26日
    2
  • springboot eureka集群部署_springmvc框架原理

    springboot eureka集群部署_springmvc框架原理1、相关环境开发工具:idea;springboot版本:2.1.13springcloud版本:Finchley.SR1(注意,此处使用的是springboot2.0.x以上的版本,而springcloud对应的版本为Finchley,且springboot2.0相比于springboot1.5.x来说,maven依赖变化较大,这个问题在搭建分布式项目时我会做出说明)中间件:eurek…

    2022年8月21日
    12
  • Linux系统结构详解

    Linux系统结构详解Linux系统一般有4个主要部分:内核、shell、文件系统和应用程序。内核、shell和文件系统一起形成了基本的操作系统结构,它们使得用户可以运行程序、管理文件并使用系统。部分层次结构如图1-1所示。1.linux内核Linux内核是世界上最大的开源项目之一,内核是与计算机硬件接口的易替换软件的最低级别。它负责将所有以“用户模式”运行的应用程…

    2022年5月25日
    42
  • 更新Ubuntu软件源

    更新Ubuntu软件源在Ubuntu操作系统下更换软件源,加快下载速度。

    2022年7月22日
    14

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号