第六章聚类分析与判别分析介绍:1、聚类分析2、判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。主要分类系统聚类快速样本聚类事先指定用于聚类分析的类数不指定最终的类数,结论将在聚类过程中寻求对样本进行聚类(Q型聚类)对变量进行聚类(R型聚类)第六章聚类分析与判别分析快速样本聚类分析根据被观测的对象的各种特征,即反映被观测对象的特征的各变量进行分类。当要聚成的类数已知时,使用快速聚类过程可以很快将观测量分到各类中去,其特点是处理速度快,占用计算机内存少。8.1根据下表12个地区城市建设指数(用来反映城市风貌的一些指数)。请采用快速样本聚类的方法将这些地区的城市风貌归为8类。(此数据为虚构,仅供演示方法用)X1X2X3X4X5X6X7X8地区人口指数绿化指数建设指数信息指数文化指数交通指数收入指数流通指数a110.259.768.384.4926.816.441.990.41b82.5850.9813.49.3321.312.369.211.05c83.3353.39117.5217.311.79120.7d71.7247.729.426.9613.127.96.660.61e68.9143.4122.415.313.8812.429.011.41f107.862.2415.68.883121.0111.80.16g73.1844.5423.915.222.389.6613.91.19h72.2347.319.486.4313.1410.438.31.11i84.6644.0513.57.4719.1120.4910.31.76j11441.4433.211.248.7230.7714.911.1k74.9650.1313.99.6216.1410.1814.51.21l5.650.885.213.8912.949.496.771.27每个聚类中的案例数1.0001.0003.0002.0001.0001.0002.0001.00012.000.00012345678聚类有效缺失从聚类结果可知,地区a为一类;地区b、c、k为一类;地区d、h为一类;地区e和g为一类;地区f为一类;地区j为一类;地区l为一类系统聚类(分层聚类分析)由于人们对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大量信息。(对变量聚类R;对样本聚类Q)分层聚类分析(系统聚类)对变量聚类---R型分层聚类分析(系统聚类)对样本聚类---Q型判别分析判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如报天气预报时的有雨和无雨。不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。(Fisher二级判别分析)(Fisher二级判别分析)判别分析根据华北地区和长江中下游降水年变化的不同特点,根据给定资料,建立新增测站分属何种降水类型的判别方程。并判别青岛、兖州、临沂、徐州、阜阳等中间地带的测站应分属于何种降水类型。地区测站x1x2x3华北地1区天津2.458.912.1北京3.469.714.3保定3.269.012.5石家庄3.398.513.0太原2.1310.613.3五台山1.8016.418.1兴县3.0110.113.3榆林3.707.812.5张家口1.8211.412.7大同2.0511.612.7长江中下2游地区上海0.7413.110.0东山1.0112.511.7南京0.8710.911.5合肥1.1810.310.1安庆0.4412.39.5九江0.4713.69.4汉口0.6111.78.5芜湖0.7610.510.9溧阳0.7511.312.2黄石0.6414.010.4判别对象青岛1.6813.711.6兖州1.7513.710.5临沂1.6510.012.0徐州1.488.311.1阜阳1.078.610.9从表中可知,判别方程为:y=-9.3+2.074X1+0.197X2+0.294X3。计算和1y2y求均值1y求均值2y计算0y2122110nnynyny1E-06计算cy3294.02197.01074.23.9XXXyc判别对象测站x1x2x3yc青岛1.6813.711.60.29362兖州1.7513.710.50.1154临沂1.6510.012.0-0.3799徐州1.488.311.1-1.33198阜阳1.078.610.9-2.18202判别归类ycy00.293621E-06华北0.11541E-06华北-0.37991E-06长江中下游-1.331981E-06长江中下游-2.182021E-06长江中下游