文档详情

系统聚类分析方法

daj****de
实名认证
店铺
DOCX
204.14KB
约18页
文档ID:158599568
系统聚类分析方法_第1页
1/18

系统聚类分析方法聚类分析是研究多要素事物分类问题的数量方法基本原理是根据样本自身的属性,用数学方法 按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本 进行聚类常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等1. 聚类要素的数据处理假设有m个聚类的对象,每一个聚类对象都有 个要素构成它们所对应的要素数据可用 表3.4.1 给出点击显示该表)在聚类分析中,常用的聚类要素的数据处理方法有如下几种表3A1聚类对象与要素麴匡聚类对象要索最A ,勺:A ,1电1A ,■A ?之曲1A ,%A ,%M-MMMM-学为处A ,知A ,M-MMMM4,■A ,① 总和标准化弓.=疽 a = \zh方;丁 = i冬人蒸)2-1m£ 站=1 (J = 12人对i-l② 标准差标准化③极大值标准化经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1④极差的标准化I府二 % 费 1 (「12A 摩;j 二技』/) m弩 W min经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间2. 距离的计算距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和 基础。

①绝对值距离① 钢成离咋二耳显球 (很二1,小卷;2=1 '② 0^蔑③明科夫斯基距蔼__ 1&奇=2Z |否自—(如」=12人,状) a-i®切比乏夫距蔼选邦同的距离,聚类结果会有所差异在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进■行聚舞 华—= \:上4 *)tv '例:表3.4.2给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示表3.4W某培区丸E业区朝顼曲措诙屠区代号•无均耕地XI /hlTL2^'1劳均耕地.丸/W•个-1纹K田比重 展癌复种指数 洒粮食亩产 括/kg httV:'痣均粮食 泓g•奏1稻谷占粮 食比重G10.2941.093U3..6451031036.412:20:3150.9710.39012773.5683:7□.窈0.1230.316、歙14S.56934.5611.16.490.1790.5270.39111445.3632.6□.密宙O.J0810.21272..042.17^12249791.180 3SG&0.0ST0.211卷金179.68973636.^.48.17G?0.075口.18165.15194.710689634.380.17Gs0:2930.6665.3594.9■3679.5771.77.ST表3.43械差标唯做涯后偷瞄区代□Xi Xj X3 X+ Xj * X了Gi.U.911.000.070.15D.131.00D.141.000.370.000.000.000.240.00%0.200.1^0.070.440.440.0@0.07:国0 440.3S0.000.130.1S0.150.00&0.030.031.001.001.000.451.00GD.030.030.61顽0.65J0.130.590.000.000.900.S10.S40.131.00影0.910.530.070.00D.100.430.09对于表3.43中的数据,用绝对值距离公式计算可得九个农业区之间的绝对•值距离矩阵:01.5203.102.700■2.191.471;.:2305.S66.02■3.644.7704.724.461.36:.2.991.7S05.795.53'2.93'4.06□■83:1.0701.320.883.241.295.143.965.03■2.621.661-.20口务4.M■3.06■3.3201.403. 直接聚类法直接聚类法是根据距离矩阵的结构一次并类得到结果。

▲基本步骤:① 把各个分类对象单独视为一类;② 根据距离最小的原则,依次选出一对分类对象,并成新类;③如果其中一个分类对象已归于 一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类; 每一次归并,都划去该对象所在的列与列序相同的行;④那么,经过m-1次就可以把全部分类 对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图★直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失因此,直接 聚类法并不是最好的系统聚类方法[举例说明](点击打开新窗口,显示该内容)例:已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析1.5?03.102;702.191.475:866.02E4.465.795: M1.32-项2.621.6601.2303.644.7701-^6-.2.991.7302.9^4.06您.1.072,241,295:,143.961.200.514.843.0605.033.3301.40解: 根据上面的距离矩阵,用直接聚类法聚类分析:划去第9行和第9列;第二步,在余下的元素中,除对角线元素以外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;第三步,在第二步之后余下的元素之中,除对角线元素以外,d82= d28=0.88为最小者,故将第2区与第8 区并为一类,划去第8行和第8列;第四步,在第三步之后余下的元素中,除对角线元素以外,d43= d34=1.23为最小者,故将第3区与第4区 并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;第五步,在第四步之后余下的元素中,除对角线元素以外,d21= d12=1.52为最小者,故将第1区与第2区 并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类;第六步,在第五步之后余下的元素中,除对角线元素以外,d65= d56=1.78为最小者,故将第5区与第6区 并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类;第七步,在第六步之后余下的元素中,除对角线元素以外,d31= d13=3.10为最小者,故将第1区与第3区 并为一类,划去第3行和第3歹。

此时,第1、2、3、4、8、9区已归并为一类;第八步,在第七步之后余下的元素中,除去对角线元素以外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类; 根据上述步骤,可以做出直接聚类谱系图点击展开显示该图)G! G2 Gt Gs G4 Gft G, $® 3.41直琢类请系图4. 最短距离聚类法最短距离聚类法是在原来的mxm距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为 一新类Gr,然后按计算公式drk = min( 小瞄 也狂P,心计算原来各类与新类之间的距离,这样就得到一个新的(m- 1)阶的距离矩阵;再从新的距离 矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直 至各分类对象被归为一类为止[举例说明](点击打开新窗口,显示该例)例:已知九个农业区之间的绝对值距离矩阵,使用最短距离聚类法做聚类分析01::52 01-3.10 2.70 02.19 1.47 1』3 01.7800.83;1.070=5/14■3.965-03..04.843.061.404.72:4.461,:疝2.995.79,:那竽2.9?.4.061?32:0.SS.1:241.29'2.621.661...200.5100=(瞄皿=忑膈 6.02 3.M 4.77解:用最短距离聚类法对某地区的九个农业区进行聚类分析:记为G10,即G10= {G4,G9}。

分别计算G1,G2,G3, G5,G6,G7, G8与G10之间的距离得:di,iQ=min f 由牝 =min {2.19, .T.62} =2.19&, 1口日& {如,d29)=min {1.47?. 1.66}; =1.47心 {日沙 } = min (1.23/ 1.20} =1.20iQ=min{dw 坛} =min (4.77) 4.§4) =4.77如,iQ=min■:{命4,血} =min (2.99) 3.06) =299d?. io=?miii f d74? (^79} = min {4.06? J.:32} =3.3^:这样就得到G1,如,iLnin {如,^3 =miii (1:29? 1.40=1.29S% %冬601.5203..102.7005^66.023.6404.724.461:家顷'05 :795:登2.930.831.0701.32谯^245.14>:'963.0302;191.47li'204.77玄勺93 ..琨1.290G2,G3,G5, G6,G7,G8, G10上的一个新的8x8阶距离矩阵:第二步,在上一步骤中所得到的8x8阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11= {G5,G7}。

分别计算G1,G2,G3,G6, G8,G10与G11之间的距离,可得到一个新的7x7阶距离矩阵:■%0i.5a-03.102.-7004.72;4.461.8601.3咨0.88:2.243.96 02.191.472-..99 1.290%5.795.532哈1.07 5.033.320类,记为G12,即G12= {G2,G8}分别计算G1,G3,G6, G10,G11与G12之间的距离,可得到一个新的6x6阶距离矩阵:第四步,在第三步中所得的6x6阶距离矩阵中,非对角元素中最小者为d6, 11=1.07,故将G6与G11归并为一类,记为 G13,即 G13= {G6,G11} = {G6,(G5, G7)}计算 G1,G3,G10,G12 与 G13 之间 的距离,可得到一个新的5x5阶距离矩阵:第五步,在第四步中所得的5x5阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14= {G3,G10} = {G3,(G4, G9) }再按照公式(3.3.10)式计算G1,G12, G13与G14之间的距离,可得一个新的4x4阶距离矩阵:第六步,在第五步所得到的4x4阶距离矩阵中,非对角线元素中最小者为d12, 14=1.29,故将G12与G14(G3, (G4, G9))}。

再按照公式(3.3.10)归并为一类,记为 G15,即 G15= {G12, G14}= { (G2, G8),式计算G1, G13与G15之间的距离,可得一个新的3x3阶距离矩阵:% & *遂 0G13 4.72. 0G15 1.3.2- 2:99 0第七步,在第六步所得的3x3阶距离矩阵中,非对角线元素中最小者为d1, 15=1.32,故将G1与G15归并为一类,记为 G16,即 G16= {G1,G15} = {(G1,(G2,G8),(G3,(G4, G9)) }再按照公式(3.3.10)式计算G13与G16之间的距离,可得一个新的2x2阶距离矩阵:件 o2.99 0第八步,将G13与G16归并为一类此时,所有分类对象均被归并为一类综合上述聚类过程,可以作出最短距离聚类谱系图点击展开显示)G« G. Gh 盆 CdGGtG Gx5. 最远距离聚类法最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同最远距离聚类法的计算公式:成夜.:=max.国沸/我)[举例说明](点击打开新窗口,显示该例)& Gj G* Gs G+ G? Gs G? Gt 图3思3是碰离聚类率系图6. 系统聚类法计算类之间距离的统一公式▲最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性(图3.4.4)。

最短距离为 dAB=da1b1,最远距离为 dAB=dap2▲最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的式子表示:=气®;E +晚+ 7 I」;& -I当y= -1/2时,就是最短距离聚类法计算类间距离的公式;当y=1/2时,就是最远距离聚类法计 算类间距离的公式▲系统聚类的方法还有:d* — +电 d 金+建*+y \ 4% -.1表示了八种不同系统聚类方法计算类间距离的统一表达式(见表3.3.4)7. 系统聚类分析实例作为系统聚类分析方法的应用实例,下面对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析1)聚类指标选择选取如下7项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标:① y1 ——人均GDP,反映经济社会发展的总体状况和一般水平;② y2——人均第三产业增加值,反映人均服务产品占有量或服务密度;③ y3——第二产业增加值比重,反映工业化水平和产业结构现代化程度;④ y4 ——第三产业增加值比重,反映第三产业的发展程度及其对国民经济的贡献;⑤ y5——第三产业从业人员比重,反映第三产业对劳动力的吸纳能力;⑥ y6——第三产业固定资产投资比重,反映第三产业的资金投入程度;⑦ y7——城市化水平,反映农村人口转化为城市人口的程度及对服务的需求量。

表MS中国区域第三产业发展水平聚整撕瞄【19卿年}序 \指标蠢均GDF.:园姐.人均第三产业增加值(元臆第一,产 业商加 值比重(%)第*产 业而加 值比重 (柘】第三产 业威业 法比 重枫)•.第三产我 固定资产 投资比重• •的城市 化 •冰平R.1北京1S4S29132.4259.156.6滋雄58.44天津•1480®-6294.1549.445.139.545,3954.17■3河北.勒.52102.42-4932.^癸15&.121&.431新疆反292260.39魂占*35.4宏.95G.6:51.44注:本表数据详见书本明页2)聚类计算以1999年国家统计局出版的《中国统计年鉴》(1998年度的数据)为数据来源,运用上述7 项指标(表3.4.5)(点击显示该表),借助于统计分析软件包SPSS10.0进行聚类分析计算,计算 过程如下:① 用标准差标准化方法对7项指标的原始数据进行处理② 采用欧氏距离测度31个省(市、区)之间的样本间距离③ 选用组平均法计算类间的距离,并对样本进行归类经过上述聚类计算步骤,得到的聚类结果见图3.4.5点击在新窗口中显示该图)q 5 10 15 39 25安微技河眉ieZB四川23翌■州24河北3L5山西417ZZ2?宁史3014L8广西SO2S江苏LGM厂不19的irtB原花江e一、模糊聚类分析基本原理聚类分析是根据样本代表性指标在性质上的亲疏程度进行分类。

因此, 我们可以把模糊聚类分析的步骤分解如下:1 .确定样本统计指标与数据标准化对样本进行分类的效果如何,关键在于要把统计指标选择合理也就是 统计指标应该有明确的实际意义,有较强的分辨力和代表性,即要有一定的 普遍意义数据标准化就是把各个代表统计指标的数据标准化,以便于分析和比 较,这一步也称为数据正规化方法是:式中x为原始数据,歹为原始数据的平均值,S为原始数据的标准 差,”为标准化数据若要把标准化数据压缩到[0, 1 :闭区间,可用极值标准化公式:x max ——原始数据组中的最大者;x min ——原始数据组中的最小者当 x = x max 时, 工’ =1 ;x = x min 时,"=02 .标定距离,建立相似关系矩阵-距离是衡量分类对象间相似程度的统计量,用rij ( i = 1,2,… n ; j = 1,2,…n ; n为样本的个数)表示利用r ij从而确定相似关系矩阵-标定距离的方法有很多,下面只列举几种常用的计算方法:⑴欧氏距离其中,xik表示第i个样本的第k个指标的观察值,xjk表示第j个 样本的第k个指标的观察值,r ij表示第i个样本与第j个样本之间 的亲疏程度。

r ij越小,则第i个样本与第j个样本之间的性质就越接 近性质接近的样本就可以划归为一类⑵绝对减数法f 1 (当i =顶时);七='1-唱比-马| (当if时);其中c应适当选取,使得0 W r ij W 13 .进行聚类在确定了样本之间的距离后,就可以对样本进行归类,归类的方法很多, 其中用得最广泛的是系统聚类法它首先把n个样本每个自成一类,然后 每次将具有最小距离的两类合并成一类,合并后又再重新计算类与类之间的 距离,直至所有样品归为一类为止。

下载提示
相关文档
正为您匹配相似的精品文档