因为本学期有门课,老师让用weka软件,因为软件比较小众,去图书馆才找到一本相关书籍,所以想分享一下自己的学习经验,希望对大家有所帮助。
软件的下载与安装
Weka软件下载网址:
Downloading and installing Weka - Weka Wiki
选择版本(以Windows为例),注意下载后保存在C盘以外的其他区域
安装过程很简单,如果想参考教程可以见网址:(引用的别人的文章,第一次写不知道可不可以这样这样)https://blog.csdn.net/qq_43738932/article/details/120414166
下载安装完成后,创建桌面快捷形式,图标如下图:
软件的使用
鼠标左键双击打开软件后,界面如下图:
如上图所示,Weka具有多个应用界面(对应右面标黄一列),在日常学习中,主要应用Explorer探索者界面。单击进入探索者界面:
一、加载数据
进入weka探索者界面后,第一步需要加载数据:
维卡专用的文件格式为ARFF,在weka的安装目录下的data子目录中可以找到软件自带的数据文件,可直接打开,具体操作如下:
若想导入自定义的 Excell 表格文档,打开表格——另存为.csv 格式——进 入 weka 导入 csv 文件:
打开文件,加载数据:
二、属性处理
数据文件加载后,在 Current relation 选项组下面,可以看到 Attributes (属性)选项组,下面是数据文件所包含的属性,前方方块复选框可单击对属性进行选择,再次单击取消选中。
1、删除属性
选中属性后,最下方 Remove 按钮被激活, 单击可移除所选属性。界面如下图所示:
2、直方图
由于上图导入数据文件最后一个属性 play 对应 yes 与 no 两种结果(如上 图标黄),属于标称型数据,故右下角直方图为彩色,蓝色代表 yes,红色代表 no。若导入数据最后一个属性为数字型,直方图为黑白色。直方图上部有一个 下拉列表,可进行类别属性选择:
单击右边的 Visualize All 按钮,弹出一个小窗口,可显示所有属性的直方图:
数据文件加载后,在 Current relation 选项组下面,可以看到 Attributes (属性)选项组,下面是数据文件所包含的属性,前方方块复选框可单击对属性进行选择,再次单击取消选中。
3、撤销及保存
Undo为撤销选项,可返回上一步操作。单击save可将打开的文件以ARFF格式保存。
4、数据编辑
单击Edit…弹出Viewer对话框,以二维表的形式展示数据,可以查看并编辑,如对缺失的数据进行填充或删除,或者增加实例。也称为数据集编辑器。如下图:
5、过滤器:
在Filter选项组中有一个Choose(选择)按钮,单击该按钮可以选择一个过滤器,按钮右侧是过滤器文本框,用于设置所选择的过滤器参数。在实际使用过程中可以发现,此部分并不经常用到。感兴趣的话,可以自己点着看效果。界面如下图:
三、分类器
数据预处理结束之后,开始分类。数据分类可以分为两步。第一步建立模型,第二步使用模型对数据进行分类。
Weka提供Classify标签页来构建分类器,如图默认为ZeroR,在实际操作中常用的有J48、RandomTree(随机树)、RandomForest(随机森林)等,在学习过程中,可以自己选择不同的分类器比较效果。
Test options中常用的方式为Precentage split(按比例分割),即把所有数据按比例分为训练集与测试集,用我们选择的分类器对测试集进行分类。如下图所示,66%数据归为训练集搭建模型,其余34%数据作为测试集使用该模型对数据进行分类。
选择完分类器与测试方式后,点击Start自动开始分类,分类结果在右方Classifier output中给出。
分类结果:
目前只学到这里,软件还包括聚类等功能,感兴趣可以自己摸索,或者我学了在这里和大家探讨一下。个人认为weka软件的使用非常简单,尤其是在分类的时候,只需要选好分类器及测试方式,点两下按钮就可以实现分类功能,如果用python要写好多行代码。当然,各有优缺,没有捧一踩一得意思,如果只是课程需要,推荐使用此软件。
但要注意的是,weka要求导入的数据特征明显,这就意味着需要对数据进行预处理。如检查各属性之间有无相关性,若由一个属性可以推导出其他属性时,只需要保留一个;数据是否缺损等