搜索
您的当前位置:首页数据挖掘中K-均值聚类算法的缺陷及工作效率改进的实验研究

数据挖掘中K-均值聚类算法的缺陷及工作效率改进的实验研究

时间:2023-11-05 来源:世旅网
第l3卷第34期2013年12月 科学技术与工程 V01.13 No.34 Dee.2013 1671—1815(2013)34—10359-06 Science Technology and Engineering ⑥2013 Sci.Tech.Engrg. 数据挖掘中K-均值聚类算法的缺陷及 工作效率改进的实验研究 陈晓勇 顾 晖 彭志娟 (南通大学计算机科学与技术学院,南通226019) 摘要 均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理 及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K一均值算法进行了思路及算法主 要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理 符号属性的数据不太适应、必须事先给出 值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不 断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很 小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实 验结果对于 均值算法的工作效率提高了,具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。 关键词 均值 聚类算法 噪声数据 文献标志码迭代 A 工作效率 中图法分类号TP391.3; 数据挖掘(data mining)是在大量的、不完整的、 及到人才培养,尤其是培养该工程领域的专门技术 人员,例如数据库管理人员。目前对于数据挖掘技 术的研究不再局限于理论研究,而是将其推向科技 产品的研究及相关技术的应用 J。随着我国经济 不规则的、不清晰的、随机的数据中挖掘出对于实 际应用有意义但之前并未在意的数据的非凡过程, 有时这一过程也被称之为已知的数据库中对知识 的发现(knowledge discovery,KDD)¨ 。原始的数 据类型多种多样,一般情况下有结构化数据类型和 不断发展,市场经济呈现多样化,新型产业不断崛 起,对数据挖掘技术的需求也越来越强烈,国内许 多软件企业已将目光投向数据挖掘这一领域,并尝 试着研法相关软件。目前,用于提取额数据挖掘中 有用信息的主要方法是聚类分析法,对于该方法的 研究已经取得了一定的成绩,尤其是对基于距离的 聚类分析。聚类同分类是相反的,前者是无监督的 学习,后者是有监督的学习,聚类主要是针对无标 记对象而言的,利用该分析方法将无标记的对象变 半结构化的数据类型,举例说明,数据库中的数据 即为结构化数据类型,而图像图形及网络互联网上 的数据类型为半结构化的类型。通常情况下,利用 桂南演绎等方法来发现新的知识,利用有关统计学 的数学和非数学方法将所挖掘的数据进行总结从 而得到对我们有实际意义的知识数据 J。在挖掘 数据并进行归纳总结的整个过程中,涉及到许多环 节,包括的学科内容也很广泛,在整个过程中,它主 得有意义 ’加J。聚类算法按照所使用的数据类型、 功能、聚类需求可以分为:基于划分的算法、基于层 要应用到了人工智能数学统计学,除此以外,还有 许多与数据有关的技术知识,在这个过程中还会涉 2013年7月12日收到,8月9日修改 南通大学自然科学 次的算法、基于密度的算法、基于模型的算法以及 基于网格的算法。目前,对于基于划分的 均值聚 类算法的研究已经取得了一定的成绩。该算法应 研究项目(12Z037)、南通大学校级自然科学类科研 用范围较广泛,在语音频率压缩及图像文本聚类中 均采用该算法,除此以外,在数据预处理及神经网 络结构的任务分解等领域该算法发挥重要作 基金交通运输专项项目(1OZJO02)资助 第一作者简介:陈晓勇,男。硕士。E—mail:ntuchenxy@126.com。 科学技术与工程 13卷 用¨ 。本文基于这一背景,对数据挖掘中K。均值 聚类算法的缺陷及工作效率改进进行了实验研究, 这一研究对于数据挖掘技术的改进具有一定的 意义。 1 -均值聚类算法的缺陷分析 1.1 K-均值聚类算法特点分析 1967年MacQueen首次提出了K.均值(K. means)算法,这一算法也被叫做 平均或 均值聚 类算法。该算法是到目前为止最为成功的一种聚 类方法。这种算法最显著的特点是将每个群集子 集内的所有数据样本的平均值作为集群的代表点, 该算法的主要思想是:通过采取一种反复的过程使 数据集被分成不同的类别,进而使用评价结果的聚 类性能标准的功能来实现的,从而使产生的每个群 集的紧凑及独立。 均值聚类算法主要适用于连续 性较好的聚类效应。 1.1.1 均值聚类算法基本思想 K-均值算法的工作原理可以概括为:首先,要从 数据集中自动随机选择K个点作为初始聚类中心, 然后再计算各个样品同集群的距离,按照样品同聚 类中心的距离为标准进行分类。通过距离函数求 出每一个新生成的所要作聚类的数据对象的平均 距离值,所求出的平均距离值即为新的聚类中心, 如果连续两次计算所得到的聚类中心点相同,就表 明聚类准则函数收敛,即完成样本的调整。使用K 均值聚类算法时要注意,每完成一次对样本的分类 时,都要对其结果进行验证,以便检查其是否正确, 如果验证结果显示不正确,则需要对聚类进行调 整。当对所有样本完成调整后,接下来要对聚类中 心进行修改,开始下一轮的迭代过程。假设在某一 次迭代算法过程中,对所有样本的分类结果是正确 的,不需要再进行调整,聚类中心也没会出现有一 点任何变化,就表明该聚类函数收敛,K.均值聚类算 法到此结束。 1.1.2 K-均值聚类算法主要流程 K-均值聚类算法主要流程为:输入含有n个数 据对象个数的数据库和所需要的簇的数目k;输出k 个簇。平方误差准则达到最小。算法描述:从/7,个 数据对象中自动随机的选择k个对象来作为初始状 态的的聚类中心;根据各个聚类对象的均值(即每 个簇的中心点),来计算各个数据对象与所有中心 对象之间的距离,并以最短距离为依据要求对相应 的对象进行再一次的划分;重新计算各个发生了变 化的聚类的均值(即距离中心对象);循环过程直至 各个聚类不再发生变化为止。算法步骤:为各个聚 类确定一个初始的聚类中心,这样就可以产生K个 初始聚类中心。按最小距离的原则把样本集中的 样本分配到最邻近聚类。把各聚类中的样本均值 规定为新的聚类中心。重复执行步骤2、3直至聚类 中心不再发生变化。结束过程,得到K个聚类。 1.2 K-均值聚类算法的缺陷分析 由上述K一均值聚类的特点可知,算法首先具有 以下主要优点: 均值聚类算法主要是针对于聚类 问题而出现的一种算法,该算法与其他算法相比较 简单,迅速。尤其对于数据集较大的聚类分析而 言,该算法的可伸缩和高效率得到进一步体现。因 为它的时间复杂度是0( k ),其中, 是所有对 象的个数;k是所需要的簇的个数; 是迭代发生了 多少次。通常情况下有k<<n且 <</7,。当结果 簇是密集的,而且簇与簇之间的区别较为明显时, 它的效果比较好。 与此同时可以发现算法也存在以下缺陷: (1)只有在簇的平均值已经完成定义以后, 均值算法才能使用,但是这一要求又与处理符号属 性的数据不太适应。在K.均值算法中,第一步要自 动随机选取初始的聚类中心,以其为基础进行初始 划分;第二步就要对初始划分进行优化操作。这些 初始点的选择直接影响着聚类分析的结果,选择合 适的初始点能够有效确保聚类结果的准确性,否则 可能得到的结果不准确。这是该算法急需解决的 一个问题。目前主要采用遗传算法——GA来解决 这一问题。 (2)必须事先给出k值(想要生成的簇的个 数)。初始值k直接影响最终的结果。k值不同,其 最终结果也不同。 均值算法要求在计算前给出k 值,但k值的选择要考虑多种因素,因而确定十分困 难。事实上,一般情况下是不能够提前确定给定的 34期 陈晓勇,等:数据挖掘中 均值聚类算法的缺陷及 作效率改进的实验研究 数据集成划分成多少个类别才最适合这个数据集。 这也是该算法急需解决的一个问题。针对这一问 一不断地计算更新调整后的新的聚类中心。基于这 点可知当数据巨大时,利用该算法所要花费的时 间较长,操作较困难,因而要时刻考虑到该算法的 时间及复杂性进行调整以满足各项要求。 题目前有些方法可以对k值进行初步确定:一种是 根据方差分析理论结合应用混合F统计量来求得 最合适分类数,通过模糊划分熵的方法进一步验证 结果是否合理;另一种是全协方差矩阵的RPCL算 2 -均值聚类算法工作效率改进的实验研究 2.1 实验一 法,将不合理的训练数据的类逐步删除;还有一种 是次胜者受罚的学习竞争规从而自动决定类的合 理数日。 本次试验所使用的数据集是从数据下载的 e-fatSO0.10.txt数据集,此次所选用的数据集中包括 150个数据,目的主要是考察不同初始点对 均值 聚类算法最终聚类结果的影响情况。图l为本次实 验一的过程。 (3)该算法对“噪声数据”以及孤立的点数据都 可能对平均值产生较大的影响。 (4)通过观察K.均值算法流程可以发现,使用 一均值聚类算法时要不断地对样本进行分类,还要 a)初始点为第1、2、3序号的聚类图 c)初始点为第1(X)、101、102序 的聚类 (d)初始点.工J第1 1I 1¨¨序寸的聚类 1图1实验一过程 分析:通过聚类结果可知,选取不同的初始值 对聚类结果的影响很小。通过对比如1(a)可知,图 1为初始点是序号1、2、3的聚类图,其共迭代5次, 图1(b)为初始点是序号4、5、6的聚类图,其共迭代 10362 科学技术与工程 l3卷 7次,而且观察两图发现其聚类结果输出顺序发生 了变化,除此以外还有极少数据发生变化,无其他 不同点;通过对比如图1(c)和1(b)可知,图1(c) 2.2实验二 此次实验主要是验证数据输入顺序对聚类结 果的影响,此次使用的数据集仍然延续实验一的数 据集,只是将其数据顺序进行调换,将前75个数据 同后75个数据进行调换,本次试验只是验证数据集 输入顺序的改变对聚类结果的影响,所以只选取两 种初始值进行验证,与实验一进行对比。 为初始点是序号100、101、102的聚类图其迭代次数 为9次,较图1(b)相比有所增加,除此以外数据聚 类的输出顺序有所改变,无其他不同点;图1(a)、图 1(b)、图l(c)分别为序号为l,2,3、序号为4,5,6、 序号为100,101,102的聚类图,图1(d)为序号为1、 分析:此次所使用的数据集同实验一相同,只 是将该数据集的前75个数据和后75个数据进行调 换。将2与图l(a),图1(b)与图2的对比结果可 知,数据的输入顺序有所改变,将使得其聚类结果 有很大的不同,除此以外,还会使得迭代次数有所 10、100的聚类图,此次所选择的初始值为不连续的 三个数据,通过该图可以观察到,其同图1(a)相比 只有输出顺序有所改变,其他并无不同。 结论:对比分析p1{个聚类结果 ,叮以发现虽 然它们所选取的初始点小同,但是其结果并没有较 大的区别,只是输}n顺序及迭代次数略有不同,其 中选取最前面的三个数据和后面某一不连续的数 增加。这表明数据输入顺序直接影响着K-均值算 法的迭代次数。另外,再对比图2的2个结果,虽然 两次的聚类结果是一样的,但是迭代的次数当选取 第4、5、6个数据为初始点比选取第1、2、3个数据为 初始点迭代次数有所增加,聚类结果的输出顺序也 有所改变,同时也验证了实验一的结论。 据为初始点时迭代次数最少。实验表明:初始值不 同对K.均值算法的迭代次数有一定的影响,因而初 始值选取合理可以有效减少迭代次数,从而提高算 法效率,减少工作时问,对于实际应用具有重要意 义。因此,从这此实验得到的结论是: 结论:数据的输入顺序不同直接影响着 一均值 算法的聚类结果,尤其是对迭代次数的影响。因而 要提高算法效率可以尝试着改变数据集的顺序。 虽然本次试验中改变输入顺序使得迭代次数有所 增加,不过再次改变输入顺序可能使迭代次数有所 (1)优先考虑需用数据最开始的连续的点作为 初始点,从而有效减少迭代次数完成聚类。 (2)改变K一均值算法的初始点可以影响数据集 的迭代次数,对聚类结果影响不大。 减少。这些都说明K一均值算法对数据输入顺序特 别敏感,因此得到的结论如下: (3)每次初始值的改变也会造成数据输出顺序 的改变,即使是在聚类结果不变的情况下。 (1)如果聚类数据集迭代次数较多时,可以尝 ( plllpl2Ipl: ̄J作为初始聚类结果 h)p[,l,lp[5]ptCq个数据作为初始聚类结粜 图2对比实验 34期 陈晓勇,等:数据挖掘中 一均值聚类算法的缺陷及工作效率改进的实验研究 试着改变其数据的输入顺序。 (2)不要轻易变动数据集的输入顺序,否则可 能直接影响聚类结果。 2.3实验结果探讨 在了解 均值算法的基本思想及主要流程的 基础上,影响K.均值聚类算法结果的两个因素—— 初始点的选择及数据输入顺序,进行验证。针对这 两个因素,分别进行了两个实验:实验一主要验证 初始点的选择对聚类结果的影响,通过观察图1可 知,选取不同的初始点使得其迭代次数不同,聚类 输出顺序不同,对于聚类结果无明显影响;实验二 主要是验证数据输入顺序不同对聚类结果的影响, 将实验二中的结果同实验一中的结果进行对比,发 现其对聚类结果的影响较明显,除此其将改变迭代 次数。这两个实验为提高 一∞ 舳 ∞ ∞ 均值算法的工作效率 加 0 提高了理论参考。 2.4算法改进对比 从c—fatSO0—10.txt数据集上选取4个数据集 Iris,Wine,Soybean(smal1),Vehicle进行聚类分析。 UCI数据集是一个专门用于测试机器学习、数据挖 掘算法的公共数据集。本文对4个数据集进行了改 进和未改进的对比实验,图3列出了本文算法对比。 从上述实验结果可以看出,改进算法对数据集Wine 和Soybean聚类后值有大幅的提高,提高了20%左 右。而另外两个数据集Iris,Vehicle则有所降低。 Wine数据集有178个数据,分成3类,每个数据项 有13个属性,各个属性的取值范围差距较大。Al— cohol(属性1),Flavanoids(属性8),Color—intensity (属性11)这3个属性对分类最为重要,它们的取值 范围分别为:(0.34~5.08),(1.28—13),(11.03~ 14.83),而对分类贡献不大的属性Proline(属性l3) 的取值范围是(278~1 680),在采用欧式距离计算 相似性时,属性Proline起到了绝对的作用,导致使 用欧氏距离聚类时严重降低了效果,而使用本文提 出的改进方法则明显地减弱Proline(属性13)的影 响,提高了聚类的结果。 3总结 本文在数据挖掘的基础上提出了K-均值聚类 Iris Wine Soybean Vehicle 图3算法改进对比 算法,对该算法的主要特点及其基本思想进行介 绍,并给出了其主要流程,重点分析该算法的优缺 点,及其所存在的问题,并对其存在的问题利用实 验进行验证,实验证明初始值的选取及数据的顺序 直接影响着聚类结果,从而对提高 均值聚类的运 算效率有一定的理论意义。 参考文献 1 周 萍.改进的图像分割遗传 .均值聚类算法.海军工程大学 学报,2009;03:75—78 2陶新民,徐晶,杨立标,等.一种改进的粒子群和 均值混合 聚类算法.电子与信息学报,2010;01:92— 7 3谢娟英,蒋帅,王春霞,等.一种改进的全局 .均值聚类算法. 陕西师范大学学报(自然科学版),2010;02:18—22 4陈宗海,文锋,聂建斌,等.基于节点生长 均值聚类算法的 强化学习方法.计算机研究与发展,2006;04:661—666 5 Ng A Y,Jordan M I,Weiss Y.On spectral clustering:analysis and an algorittms.Advances in Neurla Information Processing Systems,2001; 14(3):849--856 6 Wu K L,Yang M S.Alternative fuzzy c-means clustering algorithm. Pattern Recognition,2002;35(7):2267--2278 7 Hammerly G.Elkan C.Alternatives to the k-means algorithm that find better clusterings.Proc of the 1th Int Conf on Information and Knowl— edge Management,2002;11(6):6o0—6O7 8 Alsabti K,Ranka S,Singh K.An efficient K-means clustering algo— rithm.Proceedings of PPS/SPDP Workshop on High performance. Data Mining,1997;16(3):34—39 9李苏梅,韩国强.基于 均值聚类算法的图像区域分割方法. 计算机工程与应用,2008;16:163—167 1O刘靖明,韩丽川,侯立文.基于粒子群的 均值聚类算法.系 统工程理论与实践,2005;06:54—58 11樊宁. 均值聚类算法在银行客户细分中的研究.计算机仿 真,201 1;03:369—372 12关云鸿.改进 .均值聚类算法在电信客户分类中的应用.计 算机仿真,2011;08:138—140,152 (下转第10368页) 10368 科学技术与工程 13卷 2003;1 based on an effective appearance filter.IEEE Trans Pattern An ̄ysis IEEE Conf Computer Vision and Pattern Recognition,and Machine Intelligence,2007;29(9):1661~1667 6 Wu Y,Yu T.Hua G Tracking appearance with occlusions.Proc 789—-795 Focus-evaluation Algorithm Based on Gradient Threshold Count ZHANG Hong—fei ,ZHANG Ya.tao ,LIU Zhi.guang (Army Aviation Representive Office in Luoyang,luoyang 471009,P.R.China; China Airborne Missile Academy Measurement&Control Co.Ltd .,Luoyang 471009,P.R.China) [Abstract] The method of auto。focusing for gray scale digital image is an important aspect of digital imaging sys. .tem.An accurate and eficientf evaluation of the image resolution is a key stepThere are some existing evaluation methods,buI there are some limitations because of different parameters usedby image analysis and statistics. . present a new approach based on regional contrast,overcomes some of their limitation.The mathematica1 model is established individually,and the experimental results and analysis are also givenAfter analyzed some focus eva1u— . ation functions,concluded that this method not only satisifed the basic tacticsbut also has high sensitivity.It can ,be used in some high—accuracy equipment. [Key words] gradient count (上接第10363页) definition evaluate auto—focusing ; image analysis ) Research of Experimental Data Mining K-means Clustering Algorithm to Improve the Eficiency of Defect fCHEN Xiao-yong,GU Hui,PENG Zhi-juan (School of Computer Science&Technology,Nantong University,Nantong 226019,P.R.China) [Abstract] K-means clustering algorithm to extract the current data mining clustering analysis meth0d has achieved some success,in order to further improve their performance in data preprocessing and neura1 netw0rk structure in the application of the text of the algorithm for defect studies the following major aspects of w0rk.The means algorithm for ideas and algorithms are mainly process analysis;draw K.means clustering algorithm there is a simple,rapid,result clusters dense clusters and clusters such as the more obvious differences between benefits: analysis and processing algorithm has obtained data symbol attirbutes are not accustomed towhich must be given ,the value of k(number of clusters you want to generate). On the”noise data”as well as isolated Doint data have a greater impact,need to constantly updated adjusting the new computing cluster center and other shortcomings. The results obtained in the experimental veriifcation:clustering resultsselect a different va1ue 0f the initia1 value ,has little effect on the clustering resuhs;clustering data set if the number of iterations is large.you can try to change its data input order.Change data set the input sequenceit will directly affect the clustering resuIts.The ,resuhs orf the K-means algorithm work eficifency has obvious reference valuethis study for the imprevement of data ,mining technology has a certain significance. [Key words] K—means clusteirng algorithm noise data iterative work emciencv 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top