第1章数据与统计学一、统计学的分科1、描述统计DescriptiveStatistics——将数据以表格、图形或,以便看出数据间的有用的关系。例如:使用散点图、曲线图、饼图、条形图、表格等2、推断统计InferentialStatistics——利用从总体的一个样本中获得的信息来推断总体的特征,并进行假设检验。例如:估计、假设检验、预测3、核心概念(1)总体Population:在一个特定研究中所有个体组成的集合(一个统计问题涉及的所有对象)-可能数量巨大-不一定仅限于人口(2)样本Sample:总体的一个子集(从总体中获得的一组数据)(3)参数Parameter:关于总体的概括性度量(描述总体的指标)(4)统计量Statistic:关于样本的概括性度量(样本的描述指标)二、统计学的基本方法1、大量观察法——从社会现象的总体出发,对其全部单位或足够多数单位进行数量观察的统计方法。2、统计平均法——用平均数来反映总体各单位某一数量标志在一定时间、地点条件下所达到的一般水平。----------------------------------------------------------------------------------------------------------------------------------------------第2章描述统计:图表方法一、频数分布统计分组及各组频数,频率,累计频数(率)二、数据的图形表示1、直方图;2、饼图——表示出总量的分类;3、折线图;4、散点图三、频数分布的描述方法(一)集中趋势(二)离散程度(三)分布形态均值、中位数、众数切尾均值、百分位数全距、四分位间距方差、标准差、变异系数偏态偏斜度----偏态.1.表明数据是如何分布的HowDataAreDistributed?2.形状的度量MeasuresofShape偏态与对称Skewvs.Symmetry----------------------------------------------------------------------------------------------------------------------------------------------第3章描述统计:数量方法一、统计平均数1、平均数的定义与作用反映总体各单位某一数量标志在一定时间、地点条件下所达到的一般水平。其特点是抽象性和代表性。作用:1、反映总体各单位变量分布的集中趋势;2、同类现象在不同时间、不同空间进行比较。3、作为论断事物的标准。2、各种平均数的计算和特点:算术平均,中位数(百分位数、四分位数),众数,几何平均数(关于定义请见上,这里强调的是计算,讲义第3章第21~24页)1)均值(算术平均数)1.用于度量数据的集中趋势CentralTendency;2.是最常见的集中趋势的度量,3.如同平衡点BalancePoint;4.易受极端数值(ExtremeValues)影响5.公式(样本均值)SampleMean加权算术平均数2)中位数Median1.用于度量数据的集中趋势CentralTendency;2.为排序序列的中间值InOrderedSequence如果n是奇数,即为序列的中间值,如果n是偶数,则为两个中间值的均值3.中位数在序列中的位置;4.不受极值的影响3)众数Mode1.用于度量数据的集中趋势CentralTendency;2.为出现次数最多的数值ValueThatoccursMostOften3.不受极值的影响;4.可能会出现没有众数或多个众数的情形;5.对数值数据和类型数据均适用4)百分位数Percentiles:(定位点:.100PpnQ)第p个百分位数:至少有p%个数据值跟它一样大或比它小;至少有(100-p)%个数值跟它一样大或比它大。5)四分位数Quartiles——1.用于度量数据的非集中趋势MeasureofNoncentralTendency2.把排序数据等分为四个区间Quarters;3.第i个四分位数的位置(定位点:.4iinQ)6)几何平均数——是n个数的连乘积的n次方根简单几何平均加权几何平均3、计算与应用平均数应注意的问题要在同质总体才能计算平均数;总体平均要与分组平均结合应用;平均数要与变异指标结合应用。二、变异指标:全距、四分位数间距、方差与标准差、变异系数(这里强调的是计算,讲义第3章第24~26页)1)全距(极差)Range1.度量数据的离散程度MeasureofDispersion;2.最大和最小观测值之差2)四分位间距InterquartileRange1.度量数据的离散程度MeasureofDispersion;2.也称为伸展中心Midspread3.为第三和第一四分位数之差四分位间距=Q3-Q14.此间距包括中间50%的数据;5.不受极值影响3)方差和标准差(Variance&StandardDeviation)1.度量数据的离散程度MeasuresofDispersion;2.是最为常见的度量3.考虑数据是如何分布的;4.表现了相对于均值(X或者)的变异方差样本标准差公式4)变异系数CoefficientofVariation1.度量相对离散程度(MeasureofRelativeDispersion);2.总是一个百分比3.表现了相对于均值的变异;4.用来比较两组或更多组数据的分散程度;5.公式(样本)三、平均数与标准差的应用(这里强调的是计算,见讲义第3章第26~27页)1)标准分(Z分数)一个观测值的标准分就是它比平均数高(或低)几个标准差。xxzs2)在正态分布下的应用根据切比雪夫定理,利用标准差进行比例推断。切比雪夫定理:在任何数据集中,超过平均数K倍标准差的数据所占比例至多为1/K2,而在平均数K倍标准差范围之内的数据则为1-1/K2。----------------------------------------------------------------------------------------------------------------------------------------------第5、6章:随机变量及其分布一、随机变量的定义与特征1)随机变量是可能的取值。取值完全取决于机会,而不是其它任何东西。普通变量通过抽样后成为随机变量。是对试验结果的数值性描述。样本估计量(样本指标)也是随机变量,表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的变量(一切可能的样本点)。2、按照随机变量可能取得的值,可以把它们分为两种基本类型:离散型与连续型随机变量二、离散型与连续型随机变量1)离散型随机变量,即在一定区间内变量取值为有限个,或数值可以一一列举出来。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。(1)用数值表达的一个事件掷两个硬币出现的反面次数:观察到0,1,2个反面(2)离散随机变量全部整数(0,1,2,3等等);通过计数得到2)连续型随机变量,是指在某一区间或多个区间内任意取值的随机变量。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。(1)以数值数据表示的事件:学生的体重(磅)观察值115,156.8,190.1,225(2)连续随机变量整数或分数;通过测量得到;区间中有无穷多个值3)概率分布将随机变量所有可能的取值以及每个取值的概率用表格、图形、或公式表示出来。(1)离散概率分布DiscreteProbabilityDistribution1.列出所有可能的[Xi,P(Xi)]数对Xi=随机变量的取值(可能的结果)P(Xi)=与每一取值相应的概率2.互斥(没有重叠)3.完备(没有遗漏)4.0P(Xi)15.ΣP(Xi)=1(2)连续概率分布模型ContinuousProbabilityDistributionModels三、几种重要的概率分布1)二项分布;2)正态分布(一)二项分布——n次观察(试验)的样本中成功的次数1、二项分布特征1.n次相同的试验序列(Bernoulliprocess)贝努里试验及其三个假设条件1.每次试验有两个可能的结果:成功(所希望的结果)或者失败2.每次试验中成功的概率恒定3.每次试验互相独立两种不同的抽样方法:无限总体无放回,有限总体有放回2、二项分布的概率分布函数(注意计算题,见讲义第五章第30~32页)重复进行n次贝努里试验,“成功”的次数x服从二项分布P(X=x)=Cnxpx(1-p)n-x3、二项分布的特征Characteristics均值标准差()EXnp(1)npp(二)正态分布NormalDistribution1、性质(1)钟型,对称(2)均值=中位数=众数(3)随机变量值域无限2、正态曲线下的面积(1)正态分布概率NormalDistributionProbability——概率为对分布曲线以下区域的积分!(2)正态分布表有无穷个InfiniteNumberofNormalDistribution不同均值和标准差对应不同的正态分布每个分布都对应自己的表(3)标准正态分布(注意计算题,见讲义第35~36页)(正态分布的标准化)3、二项分布的正态近似(注意计算题,见讲义第37页)如果以X表示在n次贝努里试验中事件A出现的次数,p为一次试验事件A发生的概率,则当试验次数无限增大时,变量X的分布趋于具有期望值为np、方差为npq的正态分布。如p不太接近0或1,则只要n足够大,正态近似的结果就相当好。结合:第1次作业P137—31题结合:第2次作业P138-17题结合:第2次作业P160-27题前提条件:当np5且n(1-p)5时,可用正态分布近似二项分布四、随机变量的数字特征(离散随机变量概括度量)(注意计算题,见讲义第29~30页)1、数学期望:衡量数据的集中趋势期望值:概率分布的均值,所有可能值的加权平均2、方差:衡量数据的变异程度。对均值的方差的加权平均------------------------------------------------------------------------------------------------------------------------------------------------第7章抽样与抽样分布一、抽样方法1、概率抽样——采用随机原则,从总体中抽取样本单位。基本特征:①每个单位都有机会被选入样本;②得知每个样本被抽可的概率;优点:保证样本的代表性,避免人为因素对选取样本带来干扰。(1)简单随机抽样(Simplerandomsampling)简单随机抽样又称为纯随机抽样。它是按随机的原则直接从总体N个单位中抽取n个单位作为样本,保证总体中每个单位在抽选时都有相等的机会被抽到。适用于均匀分布的总体。(2)分层随机抽样(stratifiedrandomsampling)先将总体各单位按主要标志分组(分类),然后在各类型组中,采用纯随机抽样的方法抽取单位。作参数估计时,用平均组内方差代替总体方差。(3)整群抽样从总体中成群成组地的抽取调查单位,抽到的群中的每一个单位都进行调查。抽样单位为群;可以是以上三种抽样方式的组合;参数估计时,用群间方差代替总体方差(4)系统抽样(systematicsampling)先将总体按某个标志排队,再按固定顺序或相同间隔来抽选调查单位。按无关标志排队与按有关标志排队随机等距;中心等距;对称等距2、非概率抽样——不采用随机原则抽样,而是有意识地选择样本。优点:根据调研者的知识、能力和经验,非概率样本也可能会对总体特征作出很好的估计。缺点:不可能对估计的精度作出客观的评价。(1)方便抽样(conveniencesampling)——任意抽样特点:方便选样;样本的信息不适用于总体参数的推断。(2)判断抽样(judgmentsamplin