【清华】05-环境数据分析方法-3-838507025

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

环境数据处理与数学模型环境数据分析方法董欣环境系统分析教研所2015年3月4日01020304基本概念数据处理与展示描述性统计二总体的假设检验05060708回归分析主成分分析聚类分析时间序列分析数据挖掘/大数据介绍(邀请讲座,待定)基本概念两总体均值一致性检验两总体方差一致性检验大样本与小样本判断依据•大样本:n30(社会学研究中往往要求大于50)•小样本:n30本质区别总体正态分布大样本小样本正态分布N(μ,σ2)正态分布N(μ,σ2/n)𝑥~N(μ,σ2/n)𝑥~样本均值样本均值总体非正态分布大样本小样本正态分布N(μ,σ2/n)𝑥~与总体分布相关样本均值样本均值原假设与备择假设原假设(Nullhypothesis)•研究者想收集证据予以反对的假设,H0备择假设/研究假设(Alternativehypothesis)•研究者想收集证据予以支持的假设,H1一个标准零件直径为10cm,质量控制人员要定期对一台加工机床检查,确定机床生产的零件是否符合要求。如果所生产零件的平均尺寸大于或小于10cm,说明机床生产不正常,反之。H0:μ=10cm(机床生产正常)H1:μ≠10cm(机床生产不正常)收集证据想证明的假设是“机床生产不正常”否则没有必要检验!单尾检验与双尾检验单尾检验(One-tailedtest)•备择假设具有特定的方向性,即含有>或<的假设检验双尾检验(Two-tailedtest)•备择假设不具有特定的方向性,即含有≠的假设检验假设双尾检验单尾检验左侧检验右侧检验原假设H0:μ=μ0H0:μ≥μ0H0:μ≤μ0备择假设H1:μ≠μ0H1:μ<μ0H1:μ>μ0两类错误与显著性水平假设检验的目的是要根据样本信息作出决策,但决策是建立在样本信息基础上的,而样本又是随机的,很有可能犯错决策结果实际情况H0为真H0为假未拒绝H0正确决策第II类错误(β)拒绝H0第I类错误(α)正确决策•拒绝H0才会犯第I类错误,不拒绝H0才会犯第II类错误•当α增大时,β减小,反之•α,β同时减小增大样本容量两类错误与显著性水平增大样本会受限制,所以只能将α和β控制在可接受的范围内哪一类错误的后果更为严重,首要控制哪类错误发生的概率•犯第I类错误的概率可以控制,往往先控制第I类错误发生的概率假设检验中犯第I类错误的概率,称为显著性水平(Levelofsignificance),记为α两类错误与显著性水平显著性水平使人们事先指定的犯第I类错误概率α的最大允许值•α=0.01,0.05,0.1确定α后,第II类错误发生的概率β没法确定在样本观测没有充分理由拒绝原假设时,我们通常称“不拒绝H0”,而不称“接受H0”,因为“接受H0”的可靠性将由概率β来控制,相对复杂检验统计量与拒绝域样本能够提供的信息十分丰富,往往需要对这些信息进行压缩和提炼检验统计量(Teststatistic):根据样本观测结果计算得到的,能够对原假设与备择假设作出决策的某个统计量•检验统计量是一个随机变量,随着样本的不同,它的具体数值也不同•根据检验统计量建立一个准则,依据这个准则和计算得到的检验统计量,决定是否拒绝原假设检验统计量与拒绝域拒绝域(Rejectionregion):能够拒绝原假设的检验统计量的所有可能取值集合•由显著性水平α所谓围成的区域•α越小,拒绝域越小•如果样本计算得到的检验统计量落在了拒绝域里,就拒绝原假设临界值(Criticalvalue):根据给定的显著性水平确定的拒绝域的边界值临界值临界值置信水平1-αα/2α/2拒绝域拒绝域临界值置信水平1-αα拒绝域临界值置信水平1-αα/2拒绝域μ0μ0μ0双尾检验左侧检验右侧检验假设检验的步骤1.陈述原假设H0和备择假设H12.从所研究的总体中抽出一个随机样本3.确定一个适当的检验统计量,并利用样本数据计算出其具体数值4.确定一个适当的显著性水平α,并计算出临界值,制定拒绝域5.将统计量的值与临界值比较,作出决策:若统计量的值落在拒绝域里,拒绝原假设(也可以用P值作出决策)两总体均值一致性检验例如:•两个班平均成绩是否有显著性差异?•两个端面TN浓度是否有显著性差异?01::ABABHH0011::::ABABABABHHHH双尾检验左侧检验右侧检验01:0:0ABABHH01:0:0ABABHH01:0:0ABABHH2BBBxSn大样本两总体均值一致性检验两个样本的均值抽样分布为正态分布,两个样本均值之差也为正态分布计算参数•总体A,总体均值、总体方差:•总体B,总体均值、总体方差:•来自总体A的样本,样本均值、样本方差和样本容量:•来自总体B的样本,样本均值、样本方差和样本容量:N(μA,σA2/nA)𝑥A~N(μB,σB2/nB)𝑥B~N(μA-μB,σA2/nA+σB2/nB)𝑥A-𝑥B~2AAAxSn2AA2BB统计检验步骤双侧检验单侧检验建立统计假设选择显著性水平计算统计量确定临界值查标准正态分布表得大查标准正态分布表得度拒绝H0判别01::ABABHH0011::::ABABABABHHHH或0.050.0522ABABABxxnn22ABABABxxnn22><,>PP样本足够大,n30(社会学问题n50),且为独立样本A,B两个样本中个体个数可以不一样当总体方差未知时,可用样本方差代替例2:某公司对男女职员的平均小时工资进行了调查,独立抽取了具有同类工作经验的男女职员的两个随机样本,并记录了两个样本的均值、方差等,如下表,在显著性水平0.05的条件下,能否认为男性职员和女性职员的平均小时工资存在显著差异?男性职员女性职员nA=44nB=32𝑥−A=75元𝑥−𝐵=70元SA2=64元SB2=42.25元大样本设μA=男性职员的平均小时工资,μB=女性职员的平均小时工资。原假设与备择假设分别为:H0:μA-μB=0;H1:μA-μB≠0计算统计量:(由于不知道总体方差,用样本方差代替)2222227570=3.0021.966442.254432ABABABABABABxxxxSSnnnn查表得到显著性水平0.05对应的临界值分别为1.96和-1.96计算统计量落在拒绝域里,所以拒绝原假设。该公司男女职员的平均小时工资之间存在显著差异小样本两总体均值一致性检验两个样本的总体均要服从正态分布总体服从正态分布,且两个总体方差已知计算参数•总体A,满足正态分布•总体B,满足正态分布•来自总体A的样本,样本均值和样本容量:•来自总体B的样本,样本均值和样本容量:•总体方差已知2,AAN2,BBNAAxnBBxn22,AB统计检验步骤双侧检验单侧检验建立统计假设选择显著性水平计算统计量确定临界值查标准正态分布表得大查标准正态分布表得度拒绝H0判别01::ABABHH0011::::ABABABABHHHH或0.050.0522ABABABxxnn22ABABABxxnn22><,>PP与大样本两总体均值一致性检验相同小样本两总体均值一致性检验总体服从正态分布,两个总体的方差未知,但相等需要用两个样本的方差对总体方差估计将两个样本合在一起,给出总体方差的合并估计量计算参数•总体A,满足正态分布•总体B,满足正态分布•来自总体A的样本,样本均值、方差、容量:•来自总体B的样本,样本均值、方差、容量:•总体方差未知2,AAN2,BBN22AB2AAAxSn2BBBxSn统计检验步骤双侧检验单侧检验建立统计假设选择显著性水平计算统计量计算自由度df确定临界值查t分布表得查t分布表得拒绝H0判别01::ABABHH0011::::ABABABABHHHH或0.050.05220011211ABAABBABABnSnSxxtSnnSnn2ABdfnn2tt2ttP,ttttP样本为独立样本A,B两个样本中个体个数可以不一样小样本两总体均值一致性检验总体服从正态分布,两个总体的方差未知,且不相等,但两个样本的容量相等两个样本均值之差经标准化后服从t分布计算参数•总体A,满足正态分布•总体B,满足正态分布•来自总体A的样本,样本均值、方差、容量:•来自总体B的样本,样本均值、方差、容量:•总体方差未知且不等•两个样本容量相等2,AAN2,BBN2AAAxSn2BBBxSnABnn统计检验步骤双侧检验单侧检验建立统计假设选择显著性水平计算统计量计算自由度df确定临界值查t分布表得查t分布表得拒绝H0判别01::ABABHH0011::::ABABABABHHHH或0.050.05222ABdfnnn2tt2ttP,ttttP2222ABABABABABxxxxtSSSSnnn样本为独立样本A,B两个样本中个体个数一样小样本两总体均值一致性检验总体服从正态分布,两个总体的方差未知且不相等,且两个样本的容量也不相等两个样本均值之差经标准化后近似服从t分布计算参数•总体A,满足正态分布•总体B,满足正态分布•来自总体A的样本,样本均值、方差、容量:•来自总体B的样本,样本均值、方差、容量:•总体方差未知且不等2,AAN2,BBN2AAAxSn2BBBxSn统计检验步骤双侧检验单侧检验建立统计假设选择显著性水平计算统计量计算自由度df确定临界值查t分布表得查t分布表得拒绝H0判别01::ABABHH0011::::ABABABABHHHH或0.050.052222222()(/)(/)11ABABAABBABdfSSnnSnSnnn22ABABABxxtSSnn2tt2ttP,ttttP四舍五入后查表独立样本例3:为了研究环境噪声对居民睡眠的影响,分别对生活在50dB(A)和55dB(A)噪声环境的居民分别抽查10人次,如下表。已知居民睡眠时间为正态分布,不同噪声等级下方差相等,在显著性水平0.05的条件下,能否认为两个分贝下居民睡眠时间存在显著差异?居民1234567891050dB(A)6.95.86.35.07.38.07.17.26.86.655dB(A)6.47.26.16.75.68.27.56.97.06.6小样本设μA=50dB下居民平均睡眠时间,μB=55dB下居民平均睡眠时间。原假设与备择假设分别为:H0:μA-μB=0;H1:μA-μB≠0计算统计量:(两总体为正态分布,且方差相等)计算统计量没有落在拒绝域里,所以不拒绝原假设。50dB(A)和55dB(A)噪声对居民睡眠时间的影响无显著性差异22226.706.820.3410.8420.73010ABABABxxtSSnn218,182.101dft2tt配对样本(Pairedsample)所有个体先测量的值看做是来自第一个总体的样本值;所有个体后测量的值,看做是来自另一个总体的样本值独立样本配对样本配对样本(Pairedsample)每对数据都惟一对应样本中的某个个体,不能随意改变某一样本中观测值的次序目的:对配对对象给予两种不同处理效果的比较,或者处理前后的效果比较配对的本质:除

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功