weka进行数据预处理

weka进行数据预处理装入数据打开 weka 点击进入 explorer 界面 在 preprocessta 下 点击 openfile 按钮装入 ARFF 数据文件 Weka 同时也具有读入 csv 格式文件的能力 在做数据挖掘中 很多时候数据是存储在 excel 的电子表格中 打开 Excel 文件 从 File 文件 下拉菜单下选择 SaveAs 另存为 在弹出的对话框中 最下边会有 SaveAstype 保存为 选项 下

装入数据

打开weka,点击进入explorer界面,在preprocesstag下,点击open file 按钮装入ARFF数据文件。

Weka同时也具有读入“.csv”格式文件的能力,在做数据挖掘中,很多时候数据是存储在excel的电子表格中,打开Excel文件,从File(文件)下拉菜单下选择Save As(另存为),在弹出的对话框中,最下边会有Save As type(保存为)选项,下拉列表中选择CSV文件,给文件命名,点击保存就可以了,这样就可以直接在weka当中打开.csv文件了。

同样在weka中打开,csv文件之后,也可以saveas(另存为),保存该文件为arff数据文件类型

选择或者过滤属性

删除属性

在对数据进行预处理的过程中很多时候,需要删除某一些不要的属性(attribute),在Attributes panel(学过javaswing的会知道panel指代的是哪部分组件)中操作就可以了,勾选属性前面的对号,然后点击remove按钮:

weka进行数据预处理

离散化

有些技术,如关联规则挖掘,只能在分类数据上进行,这就要求在数值或连续属性上进行离散化。

在我们打开的weather.arff数据中,temperature一个连续属性,下面我们就进行一次具体的操作,点击filter(过滤器)panel的choose按钮,会出现下图:

weka进行数据预处理

选择weka.filter.unsupervised.attribute.Descretize,之后在choose按钮后面的文本框中出现Discretize–B 10-M -1.0 –R first-last这样的内容,点击该文本框会出现DiscretizeFilter对话框:

weka进行数据预处理        

在attributeIndices文本框中,我们填写temperature对应的属性编号2,在bins文本框中,我们输入3作为箱数,也就是分为3个范围,我们进行简单的分箱,所以其他不管,点击ok按钮:

weka进行数据预处理

这时候回到explorer界面,我们点击Filterpanel中的Apply(应用)按钮,在Attribute panel下,选中temperature属性,观察右侧窗口:

weka进行数据预处理

观察发现temperature属性,被分为3个范围,变成离散的变量,这时候如果点击save as选项,保存arff数据文件,在文本编辑器中打开,就会发现temperature属性在@data下每一行的instance中,都会被修改成如上图区间显示(-inf-71],[71-78],[78-inf):

weka进行数据预处理

当然这样的数据文件是标记尽管可读,但是与命名习惯还是相去甚远,因此我们可以在自己的文件编辑器中ctrl+F,查找替换掉3个区间,分别命名这三个区间为hot mild cool。

同样的操作我们去修改,humidity属性,但是这里的简单分箱,就按照我的划分选择为2了,这一切的操作结束,然后替换之后,最终的weather.arff会变成这个样子,如下图:

weka进行数据预处理

这样,也就是得到weka安装一级目录下data文件下的weather.nominal.arff文件。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/227903.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月16日 下午8:15
下一篇 2026年3月16日 下午8:16


相关推荐

  • OHEM网络

    OHEM网络该网络就是解决fastr-cnn、sppnet等网络在训练过程中,训练样本不均衡的问题。比如可能前景少,背景多。网络结构这个网络相比于fastr-cnn就增加了红色的部分,同时绿色部分最终计算出来的loss不再是用于反向传播,而是寻找hardnegative,下边红色区域计算出来的loss用于反向传播。注意下边红色区域计算loss是利用在绿色区域寻找的hardnegative进行计算的。…

    2022年5月24日
    37
  • 【JSON解析】浅谈JSONObject的使用[通俗易懂]

    【JSON解析】浅谈JSONObject的使用[通俗易懂]简介在程序开发过程中,在参数传递,函数返回值等方面,越来越多的使用JSON。JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,同时也易于机器解析和生成、易于理解、阅读和撰写,而且Json采用完全独立于语言的文本格式,这使得Json成为理想的数据交换语言。JSON建构于两种结构:“名称/值”对的集合(ACollectionofname/va…

    2022年7月26日
    8
  • R语言建立回归分析,并利用VIF查看共线性问题的例子「建议收藏」

    R语言建立回归分析,并利用VIF查看共线性问题的例子「建议收藏」使用R对内置longley数据集进行回归分析,如果以GNP.deflator作为因变量y,问这个数据集是否存在多重共线性问题?应该选择哪些变量参与回归?答:##查看longley的数据结构str(longley)##’data.frame’:  16obs.of  7variables:##  $GNP.deflator:num  8388.588

    2022年6月4日
    74
  • navicat premium激活码_在线激活

    (navicat premium激活码)2021最新分享一个能用的的激活码出来,希望能帮到需要激活的朋友。目前这个是能用的,但是用的人多了之后也会失效,会不定时更新的,大家持续关注此网站~https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~08…

    2022年3月28日
    37
  • 2017中国程序员薪资生存现状调查报告结论_程序员的收入

    2017中国程序员薪资生存现状调查报告结论_程序员的收入程序员一直都是一个备受人们关注的群体。2014年,据IDC统计,全球约有1850万名程序员,中国占10%。随着近年全国互联网创业热潮的兴起,“互联网+”、“云计算”以及“智能硬件”等领域发展迅速,市场对程序员的需求更为旺盛。  由程序员客栈联合稀土掘金通过对北京、广东、浙江、上海等全国28个省、直辖市及特别行政区的10W+优秀程开发者进行了一次调查。调查报告里对程序员的年龄组成、性别比例、

    2022年10月11日
    3
  • googlenet优点_googlenet提出的inception结构优势

    googlenet优点_googlenet提出的inception结构优势googlenet是2014年imagenet的冠军,同年还有VGG。因此在说googlenet之前,先回顾下VGG。之前介绍过fasterRCNN,fasterRCNN底层的模型官方支持了VGG和ZF,同样在K80下,ZF大概是8fps的速度,而VGG大概是3fps,这无疑就说明了VGG有些重。再给个直观的感受,通常我们VGG的fasterRCNN模型大概是400M左右,而goog…

    2022年8月14日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号