数学建模竞赛承诺书我们仔细阅读了南昌大学数学建模竞赛的竞赛规则。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B中选择一项填写):B.报名序号是(没有或不清楚可不填):_____152__________.参赛队员(打印并签名):所属院系(请填写完整的全名):日期:2013年5月28日数学建模竞赛编号专用页评阅编号:评阅记录:评阅人备注-1–冠心病月就诊人数的预测模型摘要冠心病是目前威胁人类生命的严重疾病之一,对其发病环境因素进行分析,其目的是为了对其就诊人数的进行预测,掌握其发病率的规律,有效降低其危害。本文建立了主成分分析模型对冠心病月就诊人数问题进行了研究。问题一中,我们采用主成分分析法,利用spss数学软件分别算出各个影响因素的特征值和方差贡献率及累计方差贡献率,提取出累计方差贡献率为92.234%的y1,y2这两个新变量,并采用偏最小二乘回归方法对冠心病的发病率与影响因素之间的关系进行线性拟合,得出它们的关系式,z=0.1435*exp(0.00571*y1)+0.1237*exp(0.005843*y2)并进行检验,检验结果证明,模型有效。为卫生行政部门和医疗机构提出预警和干预的建议方案做准备。问题二中,我们根据用excel画平均气压与时间的关系,可认为气压随时间近似为正弦变化,根据利用matlab中cftool软件包拟合出影响最大的两个变量中,平均气压、最高气压与月份序号的关系,以便预测接下来的气压变化,利用傅里叶级数模型x=a0+a1*cos(w*t)+b1*sin(w*t)预测:第97月的第一个新变量为:885.15302064164732913081212563522,第97月的第二个新变量为:1023.1664276144538880403457721973。将其带入关系式的第97个月病例数为z=71.252773851797661202236690667907问题三中,我们就问题一、二中的分析结果,查阅相关文献,为提高冠心病的就诊率对卫生行政部门和医疗机构提出预警和干预的建议方案。经分析可知,冠心病的发病率主要受影响于经主成分分析得出的两个新变量,经偏最小二乘回归分析,我们得出冠心病的发病率与它们的关系式,利用关系式可以很方便的计算出各变量的预测值,并根据预测值提出相应的干预方案。本文最大的亮点在于我们利用主成分分析法减少了变量的个数,大大简化了工作。为研究的深度与准确性提供了保障。关键字主成分分析法偏最小二乘回归SpssMatlabExcel傅里叶级数模型-2–一、问题重述冠心病是目前威胁人类生命的严重疾病之一,这种疾病的诱发已经被证实与环境因素,包括温度和气压之间存在密切的关系。对冠心病中的发病环境因素进行分析,其目的是为了对冠心病就诊人数的进行预测,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。数据(见MWQS.xls)来源于南昌市某医院2002年至2010年间共96个月的冠心病发病病例信息以及相应期间当地的气象资料。请你们根据题目提供的数据,回答以下问题:1.根据数据基本信息,对月就诊人数及环境因素进行统计描述。2.研究冠心病月就诊人数与环境因素间的关系,建立冠心病月就诊人数的预测模型。3.结合1、2中所得结论,对卫生行政部门和医疗机构提出预警和干预的建议方案。二、模型假设1.假设各影响因素对冠心病发病率的影响是独立的,不会相互影响2.假设所得数据只受所调查的因素的影响,其它影响忽略不计3.假设统计人数没有出现遗漏或重复,为准确值4.假设该地的气候条件对冠心病发病人数的影响与其它地区一致5.假设不存在重复就医的情况6.假设调查的这几年期间,环境因素属正常三、问题分析冠心病的发病人数受平均气压和最高气压等因素的影响,我们需要对各个因素对发病人数的影响进行定性和定量分析,得出影响最大的因素,并利用结果对未来发病人数进行预测,以提出最优解决方案。对于问题一,要求我们对所得数据进行分析,并得出各个影响因素对冠心病发病人数的影响大小,并从所得结果中提取出影响最大的因素,对未来冠心病发病人数进行预测,并提出最优解决方案,以提高就诊率,降低其危害。所以,我们采用主成分分析法,利用spss数学软件计算出各个影响因素对发病率的特征值、方差贡献率及累计方差贡献率。通过分析所得结果,提取出影响最大的因素进行进一步分析,研究其对发病人-3–数的影响特点,得出病例数与影响因素之间的关系。对于问题二,要求我们对影响最大的因素与冠心病发病人数进行定量描述,得出它们的函数关系式,以缩小研究范围,提高研究有效性,便于未来对发病人数的预测。因此,我们应用偏最小二乘回归对问题一中得出的两个新变量进行数据处理,得到发病人数与它们之间的函数关系式,并利用函数关系式预测出未来的两个新变量的值及病例数。对于问题三,要求我们对问题一、二所得结果进行整理分析,对未来冠心病的发病人数进行预测并提出有效的预警及干预方案。四、符号说明y1新变量1y2新变量2x1平均气压x2最高气压x3最低气压x4平均湿度x5最低湿度x6平均温度x7最高温度x8最低温度z病例数五、模型建立与求解5.1问题一的求解5.1.1主成分分析法1.基本原理主成分分析是把多个变量转化为少数几个新综合变量的一种多元统计方法,其基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾.其手段是将原来众多的具有一定相关性的变量重新组合成新的少数几个相互无关的综合变量(也叫抽象变量),来代替原来变量,这些新的综合变量称之为主成分.一般地说,利用主成分分析得到的主成分与原来的变量之间有如下基本关系:(1)每一个主成分都是各原始变量的线性组合.(2)主成分的数目大大少于原始变量的数目.-4–(3)主成分保留了原始变量的绝大多数信息.(4)主成分之间互不相关.据此我们建立数学模型.2.数学模型在一个统计问题中,假设我们收集到n个样品,每个样品观测到p个变量(记为x1,x2,…,xp)为简单起见,可以设xi均值为0,方差为1,(1≤i≤p),构成一个n×p阶的样本原始资料阵X=(xij)n×p.主成分分析的目的在于利用p个原始变量(x1,x2,…,xp)构造少数几个新的综合变量,使得新变量为原始变量的线性组合,新变量互不相关,新变量包含p个原始变量的绝大部分信息.这样定义x1,x2,…,xp为原始变量,y1,y2,…,ym(m≤p)为新的综合变量指标,每一个新综合变量指标是p个原始变量的线性组合:pmpmmmpppxaxaxayxaxaxayaxaxay............22112222121212121111(1)同时要求满足以下几个条件:(1)yi与yj相互无关;(2)y1是x1,x2,…,xp的一切线性组合中方差最大者;y2是y1与不相关的x1,x2,…,xp的所有线性组合中方差最大者;y3,…,ym是z1,z2,…,zm-1分别都不相关的x1,x2,…,xp的所有线性组合中方差最大者.则新变量y1,y2,…,ym分别称为原变量x1,x2,…,xp的第一、第二、…,第m主成分.从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2…,p)在诸主成分yi(i=1,2,…,m)上的系数aij(i=1,2,…,m;j=1,2…,p).从数学上可以证明,他们分别是p个原始变量(x1,x2,…,xp)相关矩阵的前m个具有较大特征值所对应的特征向量,而各个新综合变量yi的方差var(yi)恰好是相应的特征值i.各主成分的方差贡献大小按特征根顺序排列,是依次递减的,即1≥2≥…≥p≥0.其几何意义是:主成分分析相当于对原坐标轴做一次旋转变换,使得新坐标系的第1轴对应于数据变易的最大方向,第2轴与第1轴正交,且对应于数据变易的第二大方向,依次类推.3.基本步骤(1)确定分析变量,收集原始数据;设原始数据矩阵为X=(xij)n=n×p其中xij表示第i个样品(对象)在第j个变量上的取值。(2)在进行主成分分析之前,要检验该样本矩阵是否适合于主成分分析.KMO检验是检验变量之间偏相关关系的统计量,用于检验变量间的偏相关系数是否过小.KMO统计量越接近于1,说明各变量间的偏相关系数越大,KMO统计量大于0.9,效果最好;如果统计量小于0.6,则不适合于做主成分分析.Bartlett球形检验是检验相关矩阵是否是单位矩阵,即各变量是否各自独立.(3)对原始数据进行标准化,即令ijj*ijj-x=sxx(2)其中,xj,sj分别为第j列元素的样本均值和样本标准差,即11njijixxn,211()1njijjisxxn-5–则**()Xxijn×p为标准化的样本资料库.(4)由标准化后的数据矩阵求协方差矩阵,或者由原始数据矩阵求相关系数矩阵R.这两种方法结果相等.本文采用直接计算原始数据的相关矩阵的方法(对于数量级差别较大或者有量纲的数据宜适用).设原始数据X的相关系数矩阵为111212122212.....................ppnnnprrrrrrRrrr(3)rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为12211()()()()nkiikjjkijnnkiikjjkkxxxxrxxxx(4)(5)计算R的特征根和特征向量;根据特征方程0ER得R的特征根为i(i=1,2,...,p),将特征根按照从大到小的顺序排列,排列后的特征根不妨仍然表示为1≥2≥…≥p≥0.同时可得对应的特征向量u1,u2,…,up,将他们标准正交化u1,u2,…,up称为主轴(6)计算所有变量的方差贡献率及累计方差贡献率;i的方差贡献率为1(1,2,...,)iipiieip(5)i的累计方差贡献率为11(1,2,...,,1,2,...,,)ikkipiiEipkmmp(6)(7)确定主成分的数目m.方法有:①一般取累计贡献率达85%—95%的主成分;②选用所有i≥1的主成分;③累计特征值乘积大于1的主成分;④画出特征值变化曲线,以转折点位置为标准判断.本文采用累计贡献率达85%—95%的主成分.(8)确定主成分函数表达式模型.设m个主成分对应的特征向量分别为A1,A2,…,Am其中A=(a1ja2j…apj),akj表示aj的第k行的元素,则第j个主成分yj的函数表达式为1122121.........pTjjjjpjkjkkppxxxxyAaaaaxxx(7)(9)提炼主成分yj的抽象意义.由xk与yj的相关系数bkj的大小可以确定yj主要-6–与哪几个变量显著相关,然后根据这几个变量的实际意义提炼yj的抽象意义.(10)检验主成分模型.根据n个样本的m个主成分的函数值,通过计算m个主成分y1,y2,…,ym的相关系数就可以检验m个主成分是否线性无关.如果两个主成分的相关系数为0,则说明这两个主成分线性无关,模型有效;否则线性相关,模型无效.(11)求主成分函数值。将各样本标准化数据xk代入(7),可以求得各样本的第j个主成分yj的函数值.4.模型求解(1)收集原始数据矩阵X.本文选取了南昌市某医院2002年至2010年间共96个月的平均气压的平均值、月最高气压的平均值、月最低气压的平均值、