第七章聚类分析--1-第七章聚类分析第一节遗传距离数量性状遗传研究中,常常需要在多性状水平上度量个体或群体间的亲疏关系,遗传距离是在多性状水平上概括这些研究对象间的亲缘关系疏远程度的有效统计量之一。通过对遗传距离的聚类分析,不仅可以认识所研究对象(个体或群体)间亲缘关系的远近,还可进一步研究不同类群间关系远近与杂种优势的关系,为杂交育种和杂种优势的利用提供理论和材料依据。下面首先介绍有关遗传距离的基本概念—样品与变量,然后介绍遗传距离的具体计算,第三部分介绍聚类分析。一、样品与变量遗传距离可以通过三种不同类型信息获得:表型信息、分子(包括DNA和蛋白质)标记信息和系谱信息,由这三种信息求得的遗传距离分别称为表型遗传距离、遗传标记距离和系谱遗传距离。在聚类分析中有两个很重要的概念:样品和变量。样品是所研究的对象,如不同群体、不同品种以及变异群体内的不同个体等。为了研究样品间的关系,需要拟定一些指标来测试这些样品,这些指标就是变量,如株高、产量、籽粒长度、胚颜色等为表型性状变量;采用分子生物学技术获得的“0、1”型标记变量被称为分子标记变量。样品间表型性状变量和分子标记变量的遗传距离计算方法不同,下面分别叙述。二、基于数量性状表型数据的遗传距离(一)数据变换一般来说,用来考察样品的表型性状变量有多个,这些变量使用的量纲会有不同,取值范围也不相同。为了使不同量纲、不同取值范围的数据能放在一起进行比较,通常需要对原始数据进行变换处理,使之变成无量纲而具可比性。假设有n个样品,m个变量,ijy表示第i个样品在第j个变量的观测值,1,,;1,,injm。观测值数据列于表7-1。表7-1观测值数据及其3个统计量1yjymy变量样吕品第七章聚类分析--2-111y1jy1myi1iyijyimyn1nynjymny平均值y1yjymy标准差s1sjsms极差R1RjRmR对于观测值数据,通常采用的数据变换方法有:1.标准差标准化变换:*(1,2,,;1,2,,)ijjijjyyyinjms(7-1)变换后的数据*ijy无量纲,每个变量的样本均值为0,标准差为1。2.极差标准化变换:*(1,2,,;1,2,,)ijjijjyyyinjmR(7-2)变换后的数据*ijy无量纲,每个变量的样本均值为0,极差为1,且|*ijy|﹤1。3.极差正规化变换(规格化变换):1min(1,2,,;1,2,,)ijijinijjyyyinjmR(7-3)变换后的数据*01ijy,极差为1,也是无量纲的量。4.对数变换:*1()(0;1,2,,;1,2,)ijijijygyyinjm(7-4)该变换是将具有指数特征的数据结构转换为线性数据结构。此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法(如线性模型分析方法等)的需要。5.主成分变换:在植物育种过程中,一般需要从多个性状上考查与评价品种。由于基因多效性或遗传连锁等原因往往导致被考查性状间存在显著的相关性。这种情况下,可以把多个具有相关关系的性状(变量)通过主成分变换,转化为少数几个独立并具有主导作用的综合变量。主成分变换的方法与详细过程参阅裴鑫德(1991),范金城等(2002),高惠璇(2001),梅长林(2002)。主成分变换在解决性状间的相关问题上确实有其优点,但在选取主成分时毕竟有部分信息损失,因此,该变换方法并没有在表型遗传距离计算中被广泛采用。第七章聚类分析--3-(二)距离的计算对具有不同量纲的表型数据完成数据变换之后,即可计算样品间的遣传距离。把n个样品看成m维空间中的n个点,用ijD表示样品i和j之间的距离,一般要求:①0,,;ijDij对一切②,,;ijjiDDij对一切③,,,(ijikkjDDDijk对一切三角不等式)设观察数据(1,,;1,,)ijyinjm经变换后得到*ijy,如表7-2所示。表7-2观测数据ijy经变换后的*ijy*1y*jy*my1*11y*1jy*1myi*1iy*ijy*imyn*1my*njy*nmy对于表型性状,常用的距离计算方法有两种:1.欧氏距离:2**1(,1,2,,)ijmEitjttDyyijn(7-5)由于欧式距离具有很好的几何特性,在聚类分析的距离计算过程中被广泛应用。例7.1调查8个栽培棉花品种(其中,4个陆地棉品种:TM-1、611、斯字棉2B和乌干达棉;4个海岛棉品种:5476-、军海1号、埃棉3号和吉扎80号)的10个表型性状,数据列于表7-3,试计算8个棉花品种间的欧氏距离。表7-38个棉花品种的观测性状值编号品种果枝节位(个)果枝数(个)单株铃数(个)铃重(g)衣分(%)籽指(g)2.5%跨长(mm)比强度(cN/tex)种仁脂肪(mg)种仁蛋白(mg)1TM-18.612.015.05.633.212.429.919.635.739.325476-H5.716.313.23.329.012.931.926.634.838.93611B5.414.417.16.133.011.328.017.438.639.24军海13.518.420.03.126.512.732.926.434.238.3变量样品第七章聚类分析--4-号5斯字棉2B7.513.313.26.134.012.730.319.033.737.06埃棉3号4.020.08.82.331.812.033.335.137.236.77乌干达棉7.413.313.65.534.911.530.316.833.539.78吉扎80号6.415.015.02.531.213.729.631.537.835.3解:计算这8个品种间的欧氏距离分两步:(1)数据变换.由于所测量的10个性状单位不同,所以要作标准化变换。此外用标准差标准化变换。计算出每个变量(观测性状)的标准差s,再依式(7-1)将每个观测值的离均差除以相应的标准差,就得到标准化了性状值(表7-4)。表7-48个棉花品种的标准差标准化性状值编号品种果枝节位(个)果枝数(个)单株铃数(个)铃重(g)衣分(%)籽指(g)2.5%跨长(mm)比强度(cN/tex)种仁脂肪(mg)种仁蛋白(mg)1TM-11.4-1.20.20.80.50.0-0.5-0.60.00.825476-H-0.20.4-0.4-0.6-1.00.60.60.4-0.50.53611B-0.4-0.30.81.10.5-1.4-1.5-1.01.50.74军海1号-1.51.11.7-0.7-1.90.41.20.3-0.80.25斯字棉2B0.8-0.7-0.41.10.80.4-0.3-0.7-1.-0.76埃棉3号-1.21.7-1.7-1.20.0-0.51.41.60.8-0.97乌干达棉0.8-0.7-0.30.71.2-1.1-0.3-1.1-1.11.18吉扎80号0.2-0.10.2-1.1-0.21.7-0.71.11.1-1.8平均值y6.0615.3414.494.3131.7012.4030.7824.0535.6938.05标准差s1.762.743.261.662.780.781.796.881.961.55(2)距离计算。对表7-4中标准化变换后的数据,按式(7-5)计算出两两品种间的欧氏距离值,构成一个三角形距离矩阵(表7-5)表7-58个棉花品种间的欧氏距离矩阵第七章聚类分析--5-编号123456723.5633.154.6245.402.825.5352.133.504.035.2565.963.596.004.695.4772.033.893.435.552.395.8784.513.535.174.724.184.365.60从表(7-5)可以看出,陆地棉品种与海岛棉品种间的距离比较大(如611B与埃棉3号间距离为6.0;乌干达棉与军海1号间距离为5.55),而陆地棉内各品种间距离(如TM-1与斯字棉2B间距离为2.13;611B与乌干达棉间距离为3.43)及海岛棉内各品种间距离(如5476-H与军海1号间距离为2.82;埃棉3号与吉扎80号间距离为4.36)比较小,说明陆地棉与海岛棉种间遗传差异要大于种内间的差异,即种间遗传多样性要高于种内品种间的遗传多样性。2.马氏距离:马氏距离计算见下式。TjijiMYYSYYDij)()()()(1)()(2如品种2和5间的马列氏距离253.74MD。这里需要说明两点:①在使用欧氏距离方法计算遗传距离之前,一定要对表型数据作标准化处理,否则,相同的测量结果会因所采用的量纲不同(例如厘米)而导致样品间的距离发生变化;但是,若采用马氏距离则无需标准化,因为在马氏距离的计算中包含了标准差标准化过程。②马氏距离较欧氏距离的优点在于可以排除变量之间相关性的干扰,实际应用时,变量之间若存在着很强相关性,可以采用马氏距离。三、基于分子标记数据的遗传距离在分子标记实验中,只统计样品间具有多态性的条带信息:有带记为“1”,无带记为“0”。那么就得到一个观测值为0和1的数据表。用分子标记数据可计算样品间遗传距离。基于分子标记数据的遗传距离计算方法有多种如SneathandSokal法、RussellandRao法等,但最常用的是NeiandLi法和Jaccard法,其计算公式如下:1.NeiandLi距离法:1111011012/(2)(76)ijNDNNNN2.Jaccard距离法一:11110110(1)1/()(77)ijJDNNNN3.Jaccard距离法二:11110110(2)(/())(78)ijJDInNNNN第七章聚类分析--6-式中:N11为2个样品都“有带”的位点数,N10为样品i“有带”而样品j“无带”的位点,N01为样品i“无带”而样品j“有带”的位点数。Nei’s距离和Jaccard(1)距离的取值范围有0~1之间,而Jaccard(2)距离的取值范围0~+∞。例7.2表7-6为5个玉米品系的10个分子标记数据,试用上面介绍的三种分子标记距离方法计算各品系间的遗传距离.7-65个玉米品系的12个分子标记数据品系M1M2M3M4M5M6M7M8M9M10M11M12A101010001000B101100001000C110001010100D110000110010E010100001001解:利用式(7-6)、式(7-7)和式(7-8),可计算表7-6中两两品系间的三种遗传距离,结果列于表7-7。对于品系A和B,其N11=3,N10=1,N01=1,三种距离分别如下:123/(2311)0.25ABND(1)13/(311)0.4ABJD(2)(3/(311))0.511ABJDIn表7-75个玉米品系间的Nei’s距离和Jaccard距离品系Nei’sJaccard(1)Jaccard(2)ABCDABCDABCDB0.2500.4000.511C0.7780.7780.8750.8752.0792.079D0.7780.7780.4000.8750.8750.5712.0792.0790.847E0.7500.5000.7780.7780.8750.6670.8750.8751.9461.0992.0792.079从表7-7的结果可以看出,虽然三种遗传距离的数值大小不一,但对品系间遗传距离的排序效果相同,均以A与B之间的距离最小,D与C之间距离次之,A与C、A与D、B与C、B与D间距离值最大。说明在所选用的遗传标记范围内,品系A与B间亲缘关系最近,品系D与C之间亲缘关系次之,其余品系间关系相对较远。四、基于系谱共祖度的遗传距离1.共祖度距离第七章聚类分析--7-共祖度(f)是指两个个体携带血缘等同基因的概率,01f。1f表示了个体间的遗传相异性,即在血缘关系上的疏远程度,因此,可以将1f定义为基于系谱共祖度