方法原理方法原理按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度直观的理解为按空间距离的远近来划分类别 方法原理方法原理假定研究对象均用所谓的“点”来表示在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类常见的是对个体分类,也可以对变量分类此时一般使用相似系数作为“距离”测量指标方法原理方法原理例:根据年龄将人群分成适当的类,从右图可见,人群被分为两类是比较合适的AGE80.075.070.065.060.055.050.045.040.035.030.025.020.015.0403020100方法原理方法原理在右图中可以看到五个样品应当可能被分为两组或者三组,C/D组x和y的取值均偏低,而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义方法原理方法原理当用于聚类的变量逐渐增多时,分析思路完全相同,只是这样简单、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察,改用复杂的统计指标缩减维度,使得可以在低维度空间进行呈现特特 点点聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,可能事先没有任何有关类别的信息可参考。
严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体一般都涉及不到有关统计量的分布,也不需要进行显著性检验聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法聚类分析与聚类分析与SPSS软件软件TwoStep Cluster过程过程特点:处理对象:分类变量和连续变量处理对象:分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正态分布模型稳健TwoStep Cluster过程过程步骤:建立Cluster Features(CF)Tree 确定最佳聚类数分析实例:某汽车制造商为了了解整个汽车市场的形势,希望根据汽车的基本属性和价钱对其进行分类,以有效地提高竞争力数据:car_sales.savcategorical variable:Vehicle typecontinuous variables:Price in thousands Fuel efficiency价位低、车型小、省油在该类中,所有变量均对分类有意义按变量对分类的贡献大小排序Fuel efficiency唯一大于均值K-means Cluster过程过程k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)要求你先说好要分多少类。
假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石然后,根据和这三个点的距离远近,把所有点分成三类再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢K-means Cluster过程过程属于非系统聚类法的一种 方法原理选择(或人为指定)某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止K-means Cluster过程过程方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量只能使用连续性变量K-means Cluster过程过程分析实例分析实例一个电信服务提供商希望基于客户使用的服务种类对客户进行细分如果客户能够按照使用的服务种类进行细分,提供商就可以针对客户的偏好,向其提供不同的服务内容,吸引客户使用更多的服务。
关于客户服务使用情况的标准变量包含在数据电信客户.sav中,请使用快速聚类法对客户进行聚类zlnlong zlnwire、zmultlin zebill注意类别数、分类结果的实际应用大客户:购买很多服务中等客户:主要使用“calling”服务小客户:使用很少的服务,或者不购买任何服务惨了,近一半的客户属惨了,近一半的客户属于价值非常小的客户于价值非常小的客户能不能从这群人中找到能不能从这群人中找到一些相对来说价值比较一些相对来说价值比较大的客户呢?大的客户呢?发现一类具有潜在价值发现一类具有潜在价值的客户:购买网络服务的客户:购买网络服务寻找到寻找到25%的潜的潜在客户在客户!练习练习在SPSS自带数据文件plastic.sav中根据tear_res、gloss、opacity三个变量的取值将20个样本分为三类方差分析表,剔除无用变量均数描述和均数图,考察变量在各组间的均值变化情况按姿势蝶泳、仰泳、蛙泳、自由泳四类对游泳运动员进行分类数据swim.savHierarchical Cluster过程过程属于系统聚类法的一种其聚类过程可以用树形结构(treelike structure)来描绘的方法方法原理先将所有n个变量观测看成不同的n类然后将性质最接近(距离最近)的两类合并为一类再从这n-1类中找到最接近的两类加以合并依此类推,直到所有的变量观测被合为一类使用者再根据具体的问题和聚类结果来决定应当分为几类Hierarchical Cluster过程特点一旦记录/变量被划定类别,其分类结果就不会再进行更改可以对变量或记录进行聚类变量可以为连续或分类变量变量可以为连续或分类变量提供的距离测量方法非常丰富运算速度较慢Hierarchical Cluster过程过程分析实例:数据car_sales.sav,对售价在10万以上的汽车进行分类。
type=0,sales100Hierarchical Cluster过程过程分析实例:电信服务提供商希望了解客户对于各种服务的使用情况,如果能够对服务进行分类,他们就可以将服务进行打包,推出更有吸引力的服务服务的使用情况包含在数据电信.sav中,请使用系统聚类法来研究不同类型的服务之间的关系对变量进行聚类Toll free service Wireless service、Multiple lines Electronic billing冰柱图的解读需要注意的问题需要注意的问题距离测量方法使用默认值即可变量选择无关变量有时会引起严重的错分应当只引入在不同类间有显著差别的变量尽量只使用相同类型的变量进行分析使用连续变量,将分类变量用于结果解释新的聚类方法可以同时使用这些变量需要注意的问题需要注意的问题共线性问题对记录聚类结果有较大的影响相当于某个变量在聚类中的权重大于其它变量最好先进行预处理变量的标准化变量量纲变异程度相差非常大时需要进行数理统计算法上要求一律标准化标准化后会削弱有用变量的作用需要注意的问题需要注意的问题异常值影响较大还没有比较好的解决办法尽力避免分类数从实用角度讲,28类比较合适专业意义一定要结合专业知识进行分析需要注意的问题需要注意的问题其他方面聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解总结总结补充练习补充练习对数据分别使用三种聚类方法,直接对四个分析变量进行聚类。
比较各种结果的异同然后,对四个分析变量进行因子分析,对因子然后,对四个分析变量进行因子分析,对因子进行聚类,然后比较异同进行聚类,然后比较异同说明:各种算法的结果大同小异,至于哪种算法更适合,需要结合行业背景和实际问题进行考虑。