多元统计分析第1章绪论

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1应用多元统计分析AppliedMultivariateStatisticalAnalysisduoyuanfenxi@sina.com张立新曲阜师范大学经济学院2第一章绪论一、课程介绍二、利用统计学进行科学研究的程序3一、课程介绍:1、什么是多元统计分析?★2、多元统计分析的起源与发展3、多元统计分析的主要方法★4、为什么要学习多元统计分析?★5、教与学相关问题6、软件介绍7、考核要求8、参考教材41、什么是多元统计分析?什么是统计学?关于如何收集、分析、解释和表达数据的科学。研究随机现象规律性的方法学。自然界和人类社会活动中,普遍存在三类现象。确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。1+1=2。属于经典数学研究的范畴。随机性现象:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币正反面。概率统计学模糊性现象:在相同的条件下出现不确定的结果,称为模糊性现象。如美人与丑人。模糊数学51、什么是多元统计分析?在实际问题中,很多随机现象涉及到的变量/指标不止一个,而经常是多个变量,而且这些变量间又存在一定的联系,常常需要处理多个变量的观测数据。衡量一个地区的经济发展水平:GDP,收入、消费、投资、进出口天气预报:降雨与前一天的气温、气压、湿度等医学诊断:血压、脉搏、白血球、体温等学习成绩;购买行为;企业竞争力;组织文化……如何分析:分开分析(可能难以避免相关性,丢失信息);对多个变量(多维随机向量)同时进行分析研究,即多元统计分析。61、什么是多元统计分析?是统计学的重要分支,一元的推广和发展。又称:多变量统计分析,高级统计学,多元分析,高维数据统计分析。当假定总体分布是多元正态分布时,称为狭义多元分析,否则为广义多元分析是研究多个随机变量之间的相互依赖关系以及内在统计规律性的一门统计学科(理论和方法)多元统计分析的前提条件–多元统计对资料的分布有一定的要求;–需要有足够大的样本,一般认为,样本量m是研究变量个数P的10倍左右。72、多元统计分析的起源与发展起源于20世纪初,1928年威沙特(Wishart)发表论文《多元正态总体样本协方差阵的精确分布》,标志着多元分析的开端.之后R.A.Fisher、H.Hotelling、S.N.Roy、许宝禄等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展,在许多领域中也有了实际应用.但由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响,甚至停滞了相当长的时间。二十世纪50年代中期,随着电子计算机的出现和发展,使得多元统计分析重现活力,在地质、气象、医学、社会学等方面得到广泛的应用.82、多元统计分析的起源与发展1960年代通过应用和实践又完善和发展了理论,由于新理论、新方法的不断出现又促使它的应用范围更加扩大.我国至1970年代初期才关注到多元统计的方法;改革开放后受到各个领域的极大关注,近30多年来我国在多元统计方法的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平但总的说来,我国的统计学与发达国家相比差距还较大。首先,与我国经济和科技发展对统计学的需求相比,与一个十多亿人口的大国相比,我国统计学的队伍还很小;其次,统计学的应用远没有达到应有的程度。有很多能够应用统计学的行业领域还不大了解统计学。9许宝禄在中国开创了概率论、数理统计的教学与研究工作。在内曼-皮尔逊理论、参数估计理论、多元分析、极限理论等方面取得卓越成就,是多元统计分析学科的开拓者之一。原籍浙江杭州,祖父曾任苏州知府,父亲曾任两浙盐运使。兄弟姊妹共7人,他最幼。其两兄均为专家,姊夫俞平伯是著名的文学家.清华大学数学系(与华罗庚同学),1933年毕业获理学士学位,经考试录取赴英留学,体检时发现体重太轻不合格,未能成行,休养一年。1934年任北京大学数学系助教。1936年考取伦敦大学统计系学习数理统计,1938年博士毕业后留校认讲师。发表了多篇数理统计学科的重要文献。1940年回国在西南联合大学任教;1946年到北卡罗莱纳大学任教;1947年回国在北京大学任教熟练运用英语、德语、法语、俄语103、多元统计分析的主要方法多元描述统计分析多元方差分析多元回归分析聚类分析判别分析对应分析主成份分析因子分析典型相关分析结合分析多维标度法路径分析神经网络分析结构方程模型114、为什么要学习多元统计分析?应用性、实用性,进行深层次经济社会分析和解决实际问题的一种有效工具培养统计思维;是科学研究不可缺少的实用工具。在自然科学和社会科学等各个领域中得到广泛的应用:经济管理、工业、农业、医学、教育学、体育、生态学、地质学、气象、水文、社会学、考古学、军事科学、文学等物理学家爱因斯坦学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。生物学家达尔文学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。护理学的奠基人Nightingale学习和研究统计,出版世界上第一部医院统计的专著《医院统计与医院规划》。12多元统计分析的用途研究目标/用途内容方法数据或结构性化简(降维)尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析分类和组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。判别分析、聚类分析、主成分分析、可视化分析变量之间的相关关系变量之间是否存在相关关系,相关关系又是怎样体现。多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析预测与决策通过统计模型或最优准则,对未来进行预见或判断。多元回归、判别分析、聚类分析、可视化分析、神经网络、时间序列,马尔科夫概型分析假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。多元总体参数估计、假设检验13预测回归分析定性数据建模分类聚类分析判别分析判别主成分分析因子分析结构方程关联性分析综合评价统计学方法的应用以及内容之间的逻辑关系应用范围统计方法144、为什么要学习多元统计分析?3.1教育学n个考生报考曲师大经济统计系.每个考生参加7门课(语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为Yj1,Yj2,…,Yj7。又每个考生在高中学习期间,m门主要课程成绩为Xj1,Xj2,…,Xjm(j=1,2,…,n)。经对这大量的资料作统计分析,我们能够得出:(1)高考成绩和高中学习期间成绩的关系,即给出两组变量线性组合间的关系,从而可由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩.154、为什么要学习多元统计分析?(2)利用n个学生在高中学习期间m门主科的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优秀学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平合理地确定。评选三好生,评选学习奖,评选各种奖学金,推荐研究生,甚至评选小偷!如何评选更合理?可以使用主成份分析164、为什么要学习多元统计分析?比如全班有40名学生,本科生四年中主要课程包括基础课,专业基础课,本专业的限选课,设共有12门课.从教务处可以得到全班40名学生这12门课的成绩,组成的40行12列的数据阵X,即原始数据.(1)全班学生综合成绩的排序12门课的成绩可看成12个变量,这是多指标(变量)系统的排序评估问题。如何更科学、更客观地将一个多指标问题综合为单个综合变量的形式?主成分分析方法为样本排序或多指标系统评估提供可行的方法。174、为什么要学习多元统计分析?用主成分分析方法从12个相关的变量中可以综合得出几个互不相关的主成分--它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在70%以上),我们就用第一主成分(即单个综合指标)F1替代原来的12个变量;然后计算第一主成分的得分并进行排序。比如F1是12个变量的线性组合,且系数都是正数,数值有大有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。成绩简单的加总并不是最科学地代表12门课综合成绩的指标122112852.04525.03233.0XXXF184、为什么要学习多元统计分析?12个原始变量(课程)提供的信息各为多少?用什么量来表达?最经典的方法是用变量的方差为多少来表达。如果某课程全班学生的成绩都差不多,比如都是80分左右,则这门课程在学生成绩的排序中不起什么作用。这反映在原始变量的线性组合F1(第一主成分)上该变量对应的系数会很小(如0.1025).如果另一门课程全班学生的成绩相差很大,有的100分,有的只有30多分,则这门课程在学生成绩的排序中起的作用很大。这反映在原始变量的线性组合F1(第一主成分)上该变量对应的系数会很大(比如0.4525).如果考虑课程的重要性,则需加权,变量系数也增大19实际分析中可能提取出的主成份有多个,如下表:可以3个公因子的方差贡献率为权重,可以得到学生成绩的综合得分计算公式。204、为什么要学习多元统计分析?3.2医学随机抽取300名患有抑郁症的病人,按照测量到的指标,可以将他们分为几种类型---聚类问题.医生对病人的诊断是靠对病人观测若干症状来综合评定。如一个人发高烧,医生根据他的体温高低、白血球数目及其它症状来判断他是得感冒、肺炎还是其它。再如某人发现腹部有肿瘤,医生根据肿瘤的大小、生长的速度、边界是否清楚,质硬或软等症状来判断肿瘤是良性或恶性---判别问题.某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。根据这批资料利用多元统计方法建立诊断准则(即专家系统)。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。214、为什么要学习多元统计分析?3.2医学有人观察发现喝咖啡的人,很多人患心肌梗塞MI,这种现象是表象还是内在因果关系的?研究者调查MI及非MI病人各150例,得到如下数据优势比:OR=(90/60)/(60/9060)=2.25Pearsonchi2(1)=12.0,P=0.001。结果:喝咖啡人MI发生的危险性是不喝的2.25倍。两组MI发生率差异有显著意义。结论:喝咖啡与心肌梗塞MI有关!对否?22研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞MI间关系的影响,进一步分层分析得到。表控制吸烟因素的干扰后结果SmokerNosmokerMINoMI%MINoMI%Coffee804067102033Noffee201067408033优势比:OR=1,P=1.00,OR=1,P=1.00表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。4、为什么要学习多元统计分析?分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。234、为什么要学习多元统计分析?当混杂因素较多时,分层分析较麻烦且不准确每增加一个因素,你将倍增分组的数量。一方面产生大量的打印结果;另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。COX比例风险分析的多元分析方法,它将使你同时评价各种不同因素对结果的不同作用244、为什么要学习多元统计分析?3.3环境科学为了了解某大型化工厂对环境的污染程度,在厂区及邻近地区有代表性的选25个监测点(如厂区,生活区,医院,学校…),每天定时(2点,8点,14点,20点)同时抽取大气样品,测定其中6种污染气体(二氧化硫,硫化氢,碳4,…)的浓度,前后4天共16次数据,对每个监测点,计算每种污染气体16次实测值的平均值,得25行6列的数据阵X。由数据阵X出发,进行分析处理.聚类分析:把25个取样点按污染情

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功