第十章 地理系统的聚类分析,1.聚类分析概说 聚类分析是按照一定标准来鉴别地理区域或实体、现象之间的接近程度,并将相接近的归为一类的数学方法 其基本原理是,根据样本自身的属性,用数学方法按照某些相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类 聚类分析方法,是地理学中研究地理事物分类问题和地理分区问题的重要的数量分析方法常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等2.聚类分析的数据处理,2.1数据处理的目的 在地理分类和分区研究中,被聚类的对象常常是多个要素构成的不同要素的数据往往具有不同的单位和量纲,因而其数值的差异可能是很大的,这就会对分类结果产生影响因此在进行聚类分析之前,还要对聚类要素进行数据处理假设有n个被聚类的对象,每一个被聚类对象都有x1,x2,,xm个要素构成它们所对应的要素数据可用表给出2.2数据处理的方法 (1) 总和标准化:分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素数据的总和,即 这种标准化方法所得的新数据xij,(2)标准差的标准化,即 这种标准化方法所得的新数据xij各要素的平均值为零,标准差为1,(3)极大值标准化:,经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。
4)极差的标准化: 系列中任一变量(xij),与其第j列中的最小值xj(min )之差,和第j列中的最大值xj (max)与最小值xj之差的比值即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间表1:某地区九个农业区的七项经济指标数据,表2:极差标准化处理后的数据,3.距离和相似系数的计算,距离是事物之间差异性的测度,而相似系数则是其相似性的测度,距离和相似系数是聚类分析的依据和基础3.1距离的计算,(1)绝对值距离 i,j两个地点(两个样品),xk第k个特征值或指标 (2)欧氏距离 距离系数越小,两点间的相似程度越大,反之则小,据表2中的数据,用绝对值距离计算可得九个农业区之间的绝对值距离矩阵如下:,3.2相似系数的计算 (1) 夹角余弦: -1cosij1 (2) 相关系数:,据表2中的数据,用夹角余弦公式计算,可得如下的相似系数矩阵:,4.1 最短距离聚类法 4.2 最远距离聚类法,4 地理系统聚类的方法,4.1 最短距离聚类法 最短距离法,是在原来的nn距离矩阵的非对角元素中找出Dpq=mindij,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式: Drk= mindpk,dqk(kp,q) 计算原来各类与新类之间的距离,这样就得到一个新的(n-1)阶的距离矩阵; 再从新的距离矩阵中选出最小的dij,把Gi和Gj归并成新 类; 再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
下面我们据前式中的距离矩阵,用最短距离聚类法对某地区的九个农业区进行聚类分析在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为G10,即G10=G4,G9分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的最短距离得: d1,10=mind14,d19=min2.19,2.62=2.19 d2,10=mind24,d29=min1.47,1.66=1.47 d3,10=mind34,d39=min1.23,1.20=1.20 d5,10=mind54,d59=min4.77,4.84=4.77 d6,10=mind64,d69=min2.99,3.06=2.99 d7,10=mind74,d79=min4.06,3.32=3.32 d8,10=mind84,d89=min1.29,1.40=1.29,这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵:,在上一步骤中所得到的新的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7再分别计算G1,G2,G3,G6,G8,G10与G11之间的最短距离,可得到一个新的77阶距离矩阵:,,在第二步所得到的新的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。
再分别计算G1,G3,G6,G10,G11与G12之间的最短距离,可得到一个新的66阶距离矩阵:,,在第三步中所得到的新的66阶距离矩阵中,非对角线元素中最小者为d6,11=1.07,故将G6和G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)再计算G1,G3,G10,G12与G13之间的最短距离,可得一个新的55阶距离矩阵:,,在第四步中所得到的新的55阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3和G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)再计算G1,G12,G13,与G14之间的最短距离,可得一个新的44阶的距离矩阵:,,在第五步中所得的新的44阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9))再计算G1,G13与G15之间的最短距离,可得一个新的33阶距离矩阵:,,在第六步中所得的新的33阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16=G1,G15=G1,((G2,G8),(G3,(G4,G9)))。
再计算G13与G16之间的最短距离,可得一个新的22阶距离矩阵:,,将G13和G16归并为一类此时,所有分类对象均被归并为一类综合上述聚类过程,可以作出最短距离聚类谱系图例设有6个样品,每个样品测定一个变量,测定的结果是1、2、5、18、9、12用最短距离法进行分类,,,,,,,,,,,,,,,G1,G2,G3,G4,G5,G6,G7,G10,G9,G8,最短距离聚类法谱系图,4.2最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式: Drk=max Dpk,Dqk (kp,q) 对于上述同样的例子,最远距离聚类法的聚类过程如下:,在99阶距离矩阵中,非对角线元素中最小者为d94=0.51,故将G4与G9归并为一类,记为G10,即G10=G4,G9分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的最远距离,可以得到一个新的88阶距离矩阵:,,在第一步所得到的新的88阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7再分别计算G1,G2,G3,G6,G8,G10与G11之间的最远距离,可得一个新的77阶距离矩阵如下:,,在第二步中所得到的新的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8并为一类,记为G12=G2,G8。
再分别计算G1,G3,G6,G10,G11,与G12之间的最远距离,可得一个新的66阶距离矩阵如下:,,在第三步中得到的新的66阶距离矩阵中,非对角线元素中最小者为d3,10=1.23,故将G3和G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)再分别计算G1,G6,G11,G12与G13之间的最远距离,可得一个新的55阶距离矩阵如下:,,在第四步中所得到的新的55阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1和G12归并为一类,记为G14,即G14=G1,G12=G1,(G2,G8)再分别计算G6,G11,G13和G14之间的最远距离,可得一个新的44距离矩阵如下:,,在第五步中所得到的新的44阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)再分别计算G13,G14和G15之间的最远距离,可得一个新的33阶距离矩阵如下:,,在第六步中所得到的新的33阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13和G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9)),(G1,(G2,G8))。
再计算G15与G16之间的最短距离,可得一个新的22阶距离矩阵如下:,, 将G15与G16归并为一类此时,各个分类 对象均已归并为一类综合上述聚类过程,可以作出最远距离聚类谱 系图例设有6个样品,每个样品测定一个变量,测定的结果是1、2、5、7、9、10用最远距离法进行分类,,,,,,,,,,,,,,,G1,G2,G3,G4,G5,G6,G7,G10,G9,G8,最远距离聚类法谱系图,,,G11,最短距离聚类法与最远距离聚类法,最短距离聚类法具有空间压缩性,最远距离聚类法具有空间扩张型,。