基于weka的数据聚类分析实验

基于weka的数据聚类分析实验


2024年3月15日发(作者:)

基于Weka的数据聚类分析实验

姓名:覃丽萍 专业:计算机应用技术 学号:2061002047

1. 实验基本原理及目的

聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准

确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例

聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于

由数值型属性刻画的实例来说,这个距离通常指欧氏距离。

在本实验中,我们对前面的“bank-data”作聚类分析,使用最常见的K均值(K-means)

算法。下面我们简单描述一下K均值聚类的步骤。

K均值算法首先随机的指定K个簇中心。然后:

(1)将每个实例分配到距它最近的簇中心,得到K个簇;

(2)计分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。

重复(1)和(2),直到K个簇中心的位置都固定,簇的分配也固定。

本次实验的目的,是通过利用Weka中提供的simpleKmeans方法对“bank-data”进行

聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在

的问题。

2. 数据的准备及预处理

原始数据“”是excel文件格式的数据,需要转换成Weka支持的ARFF文

件格式的。转换方法:在excel中打开“”,选择菜单文件—>另存为,在弹出的

对话框中,文件名输入“bank-data”,保存类型选择“CSV(逗号分隔)”,保存,我们便可

得到“”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才

得到的“”文件,点击“save”按钮,在弹出的对话框中,文件名输入

“”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为

“”。

K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1

的属性。WEKA将自动实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数

据作标准化。因此,对于ARFF格式的原始数据“”,我们所做的预处理只是

删去属性“id”,修改属性“children”为分类型。 修改过程如下:在Ultredit中打开

“”,将@attribute children numeric改成如下:

1

图1 修改children为分类型

这样我们最终得到的数据文件为“”,含600条实例。

3. 实验过程及结果截图

用“Explorer”打开刚才得到的“”,并切换到“Cluster”。点“Choose”按

钮选择“SimpleKMeans”,这是WEKA中实现K均值的算法。点击旁边的文本框,修改

“numClusters”为6,说明我们希望把这600条实例聚成6类,即K=6。下面的“seed”参

数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K

个簇中心的位置。我们不妨暂时让它就为10。

选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”

给出的聚类结果如下:

2


发布者:admin,转转请注明出处:http://www.yc00.com/news/1710459287a1760399.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信