1成绩评定表学生姓名刘思宇班级学号1309050119专业应用统计学课程设计题目全国各省市艾滋病传播状况SPSS综合分析评语组长签字:成绩日期20年月日2课程设计任务书学院理学院专业应用统计学学生姓名刘思宇班级学号1309050119课程设计题目全国各省市艾滋病传播状况SPSS综合分析实践教学要求与任务:设计要求(技术参数):1、熟练掌握统计软件的操作使用方法。2、根据所选题目及调研所得数据,运用统计分析知识,建立数据分析的统计模型。3、掌握利用统计分析理论知识解决实际问题的一般步骤。4、运用统计软件,对模型求解,对结果进行分析并得出结论。设计任务:1、运用统计学有关知识及对全国各省市艾滋病传播途径及有关数据建立统计模型进行分析;2、利用统计软件编程求解,并对结果进行恰当的解释。工作计划与进度安排:第一天——第二天学习使用统计软件并选题第三天——第四天查阅资料第五天——第六天建立模型,进行数据分析第七天——第九天上机编程求解并完成论文第十天答辩指导教师:201年月日专业负责人:201年月日学院教学副院长:201年月日3全国各省市艾滋病传播途径综合分析摘要艾滋病是由人类免疫缺陷病毒,也就是艾滋病病毒引起的传染病。艾滋病病毒进入人体后要经过数年,甚至长达10年或更长的潜伏期以后才发病。艾滋病病毒严重破坏人体免疫功能,病人因抵抗疾病的能力极度下降而重复感染多种疾病,如带状疱疹、口腔霉菌感染、肺结核,特殊病原微生物引起的肠炎、肺炎、脑炎及其他感染,后期常常发生恶性肿瘤。最终因长期消耗,全身衰竭而死亡。至今还没有治疗艾滋病的特效药,也没有可用于预防的有效疫苗。一旦发病,在我国当前的医疗条件下,都会在不长的时间内死亡。所以目前艾滋病还是一种病死率高达100%的极为严重的传染病。所以,了解以及分析艾滋病的传播途径的相关数据以确定艾滋病主要传播来源以及进行有效的预防至关重要。关键词:艾滋病,传播途径,预防4目录1引言.................................................................52全国各地区艾滋病传播及影响因素分析....................................52.1问题的提出与分析.................................................52.2描述性统计分析...................................................52.3主成分分析.......................................................62.3.1主成分分析法的基本思想...................................62.3.2主成分分析法代数模型.....................................72.4各省市艾滋病传播途径主成分分析...................................72.4.1主成分分析步骤.............................................72.4.2主成分分析结果.............................................83系统聚类分析..........................................................93.2各省市艾滋病传播途径系统聚类....................................103.2.1系统聚类步骤..............................................103.2.2系统聚类结果..............................................103.3系统聚类结论....................................................12总结....................................................................14参考文献................................................................1551引言艾滋病,获得性免疫缺陷综合症,统称为综合症,而非单纯的一种疾病,而这种综合症可通过直接接触黏膜组织的口腔、生殖器、肛门等或带有病毒的血液、精液、阴道分泌液、乳汁而传染。总体来说就是性传播,血液传播和母婴传播三大种类。每年的12月1日为世界艾滋病日。1998年7月28日,卫生部宣布,今年6月底青海省报告发现了艾滋病病病感染者,这意味着艾滋病已经蔓延到中国大陆的全部31个省、自治区和直辖市。截至2015年,中国近50万人感染艾滋病,在中国所有艾滋病病毒感染者中约15%为15-24岁的年轻人,且年轻男性的感染率在上升。所以,艾滋病的治疗以及有效预防迫在眉睫。下面主要对分析中国各个省市区的艾滋病传播途径所在人数分布进行了整理,并用SPSS软件进行统计分析。最终确定艾滋病主要传播途径,并给出相关建议。2全国各地区艾滋病传播及影响因素分析2.1问题的提出与分析近年来,随着中国社会的进步,人们思想也越来越开放,随之而来的性也逐渐得到解放,而性行为过程中由于缺乏安全防范意识,也使得艾滋病传播速度逐年加快,尤其是呈现青少年和老年人两个极端趋势。而毒品交易的泛滥也会有大量艾滋病毒传播,这使得治疗和预防艾滋病刻不容缓。根据这一现状,本文对全国各省市区艾滋病传播人数进行统计和主成分分析。根据中国各大报纸和网站上的数据描述,下面整理出来了中国31个省市自治区的艾滋病传播数据,以分析各地区情况从而加以控制和预防。2.2描述性统计分析描述性过程可以在一个统计表中显示多个变量的单变量综合统计量,其中包括样本大小、均值、最小值、最大值、标准差、方差、偏度及其标准误差。通过spssstatistics22软件在数据编辑窗口的主菜单中选择“分析”→“描述统计”→“描述性分析”将左侧框中的全部变量依次选入右侧框中,点击“选项”按钮,在“选项”对话框中,选择自己需要分析的统计量,这里我们选择极小值、极大值、均值、标准偏差、方差和偏度。最后点击“确定”按钮。分析结果如表2.1所示:6表2.1描述性统计资料N最小值最大值平均數標準偏差變異數統計資料統計資料統計資料統計資料標準錯誤統計資料統計資料总数311718763421322.524343.87624185.68584947136.6性传播311408009718443.033591.5419996.848399873929.8男男传播3124543338798.521923.5210709.709114697857.2异性传播31116482659644.522433.07613546.792183515577.6其他3131264442879.161030.1275735.50632896027.41有效的N(listwise)31————————————由表2.1可知分析描述统计量的输出结果可知,有效的统计量共为31个,在所有指标中,每一个艾滋病传播途径的极差都很大,这说明了我国各省市的艾滋病传播浮动很大,可能与人口,治安管制都有关系。标准偏差最大的是性传播途径,这也说明了性传播在艾滋病传播途径中占很大比例,所以浮动大;标准偏差最小的是其他,其他中主要包括毒品注射器血液传播,献血,母婴传播等等,这说明了在我国的艾滋病传播途径中,这一块占的比重很少,主要还是性传播为主。再观察最小值与最大值以及平均数,都是从大到小排行,很充分的说明了艾滋病传播方式中所占个省市的比例。2.3主成分分析2.3.1主成分分析法的基本思想主成分分析(PrincipalComponentAnalysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各7主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。2.3.2主成分分析法代数模型(1)假设用p个变量来描述研究对象,分别用X1,X2…Xp来表示,这p个变量构成的p维随机向量为X=(X1,X2…Xp)t。设随机向量X的均值为μ,协方差矩阵为Σ。对X进行线性变化,考虑原始变量的线性组合:F1=μ11X1+μ12X2+…μ1mXm(2.1)F2=μ21X1+μ22X2+…μ2mXm(2.2)……Fm=μm1X1+μm2X2+…μmmXm(2.3)主成分是不相关的线性组合Z1,Z2……Zm,并且Z1是X1,X2…Xm的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Zm是与Z1,Z2……Zm-1都不相关的线性组合中方差最大者。(2)求出Σ的特征值i及相应的正交化单位特征向量i,Σ的前m个较大的特征值1,2m0,就是前m个主成分对应的方差,主成分的方差(信息)贡献率用来反映信息量的(3)选择主成分最终要选择几个主成分,即F1,F2,……,Fm中m的确定是通过方差(信息)累计贡献率G(m)来确定:G(m)=pkkmii11(2.4)85%时,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。(4)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原变量Xj(j=1,2,...,p),在诸主成分Fi(i=1,2,...,m)上的载荷lij(i=1,2,...,m;j=1,2,...,p)。2.4各省市艾滋病传播途径主成分分析2.4.1主成分分析步骤首先将数据录入SPSS,点击“分析”——“降维”——“因子分析”进入因子分析框,将“总数、性传播、男男传播、异性传播和其他”依次选入“变量框”,点击进入8右侧“描述”,点击选中“原始分析结果”、“系数”,点击“继续”返回;点击右侧“抽取”,在“方法”中选择“主成分”,在“分析”中选择“相关性矩阵”,“输出”中选中“未旋转的因子解”和“碎石图”,“抽取”中“基于特征值,特征值大于0”,点击“继续”返回上一层;点击“确定”得到输出结果。2.4.2主成分分析结果表2.2相关性矩阵总数性传播男男传播异性传播其他相關总数1.000.984.707.894.786性传播.9841.000.773.865.663男男传播.707.7731.000.350.285异性传播.894.865.3501.000.754其他.786.663.285.7541.000表2.3說明的變異數總計元件起始特徵值擷取平方和載入總計變異的%累加%總計變異的%累加%13.88677.72777.7273.88677.72777.7272.84116.82594.551.84116.82594.5513.2725.449100.000.2725.449100.00044.051E-98.102E-8100.0004.051E-98.102E-8100.00052.287E-164.575E-15100.000通过表2.3可看出,特征值最大的是第一位3.886。一般主成分分析中,取大于1的特征值,但显然,本结果中特征值大于1的只有一个,由于第二位特征值为0.841,接接近于1,所以这里我们取两个主成分。累积方差贡献率为94.551%。所以我们得到的主成分相关系数矩阵如下表2.4:表2.4元件矩陣a元件1234总数10.02-0.0140性传播0.980.156-0.1270男男传播0.6950.7050.1410异性传播0.897-0.327-0.2980其他0.8-0.4610.38409根据表2.4,取前两个主成分相关系数,通过公式计算特征根得到各系数,得到方程组:F1=0.507x1+0.497x2+0.353x3+0.455x4+0.406x5(2.4)F2=0.022x1+0.17x2+0.76