统计分析方法(推断)艾小青axq@bjut.edu.cnChap1-2案例1研究表明男的如果不结婚,其寿命将减少3500天。讨论:结论如何得到?你相信吗,为什么?案例2去年调查了1000老人,其中300人是健康的,到了今年,他们中有400人是健康的。问题:整体而言,健康状况是好转还是恶化?Chap1-3案例3男性女性通过3520没通过4540总计8060入学申请结果:问题:存在性别歧视吗?案例4HIV检查中,我的结果呈阳性。同时医生告诉我:1000个正常的血液检测中,只有1个HIV结果呈阳性,错误率只有1/1000。我该怎么办?Chap1-5案例5掷一枚硬币6次,有3次正面朝上。问题1:请问硬币均匀的概率是多少?问题2:您认为硬币是均匀的吗?Chap1-6几个概率问题苹果落地的概率是多少?上帝存在的概率是多少?明天下雨概率为80%的概率是多少?已知两人中必有一个女的,两个都是女的概率是多少?Chap1-7概率概率的理解:古典定义统计定义主观定义概率的计算:除法加法和乘法分布两大类分布:概率分布两大类概率分布:正态分布正态分布是什么,怎么来的?正态分布的变形:卡方分布、F分布,t分布。K.皮尔逊,费雪尔,格赛特。抽样推断PS基础:概率分布主题:估计和检验具体方法:方差分析回归分析时间序列列联分析多元统计,等维度一个二个多个无数个一个随机变量:分布特征所有可能的结果、概率分布、期望、方差、偏度、峰度等。两个随机变量:相关性如,相关系数:与“相关”有关的几个概念因果关系,函数关系,统计关系,没有关系,独立。“相关”与“差异”有差异,就意味着相关。X在变,Y没怎么变(没差异),说明不相关;X在变,Y也有在变(有差异),说明有相关。协方差(差异)和相关系数(相关)是一回事,相关系数就是协方差的标准化。多个随机变量:异中求同如,多元统计分析中的聚类分析、因子分析等。无数个随机变量:随机过程参数估计点估计区间估计(分布估计)点估计最小二乘估计OLS矩估计MM极大似然估计MLE(贝叶斯估计BE)区间估计如何构造置信区间?点估计量的性质(随机变量的分布)根据分布得到置信区间区间估计如何理解置信度?95%的置信度是什么意思?5%的显著性水平是什么意思?置信度与区间长度(精度)是什么关系?区间估计5.0)(XP如何理解:试给出一个50%置信度下,总体均值的区间估计假设检验假设:统计假设是关于总体特征的说法。检验:基于概率对说法的真假进行判断。假设检验原理:小概率原理方法:反证法统计的假设检验是带有概率性质的反证法。数学逻辑的反证:要证明某命题为真,从它的反面出发,若能推导得到矛盾,则命题为真(否定之否定)统计推断的反证:要判断原假设的真假,不妨先认为它为真,若能发现离谱(小概率事件),则原假设为假。假设检验的应用有统计推断的地方,就有假设检验。只要有估计,理论上都应需要检验。任何的说法都可以看做是原假设(或者把说法的反面看做是原假设),通过对事实(样本)的考察,基于概率进行判断。方差分析、列联分析和回归分析变量:定性(品质型)和定量(数值型)相关性:定性变量之间定量变量之间定性与定量变量三种方法本质是一体的。