四大分部、假设检验、方差分析、一元回归分析

一把汗
2 ℃
2020-03-26

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数理统计理论及应用二、假设检验三、方差分析四、一元线性回归一、数理统计中四大分布一、数理统计中四大分布1.正态分布1、一个年级中，成绩的分布。2、抛掷一枚硬币1000次，正面朝上的概率。3、历史100年中，每年降雨量的值的分布。4、一个大学中男生的身高分布。1.1、定义：若随机变量x的概率密度函数可以表示为:的形式，则称x服从正态分布，记为x~N(,2)，其中2)(21_21)(xexfx（1）正态曲线（normalcurve）在横轴上方，均值为处最高。（2）正态分布以均数为中心，左右对称。（3）正态分布有2个参数，即均数和标准差。是位置参数，当固定不变时，越大，曲线沿横轴越向右移动；反之，越小，则曲线沿横轴越向左移动。是形状参数（亦称变异度参数），当固定不变时，越大，曲线越平阔；越小，曲线越尖峭。通常用N(,2)表示均数为，方差为的正态分布。1.2、正态分布的特征：不变，发生变化不变，发生变化（4）正态分布在处各有一个拐点。（5）正态曲线下的面积有一定规律。+凸凹凹xab（一）正态曲线下面积的计算：右图1中阴影部分（-，x）的面积称为正态分布的分布函数，记为：右图2中阴影部分（代表任意区间）的面积，理论上可以如下计算：dxexFxx22221dxeaFbFxba22221（二）标准正态分布下的面积：若则服从标准正态分布x~N(,2)二项分布的正态逼近对于一个二项分布，当实验的次数足够多时，其概率密度函数逼近于正态分布的概率密度函数。1.2.卡方分布)(~22nn定义：设随机变量独立服从标准正态分布N(0，1),则变量所服从的分布就是自由度为n的分布，称，卡方分布的密函数如下：2卡方分布性质：（1）数字特征，若则（2）可加性，若且两变量独立，则有（3）1.3.T分布定义：设,,且变量X,Y相互独立，则有变量服从的分布是自由度为n的T分布，根据定义可推得密度公式为：T分布性质：（1）当自由度正无穷时，，也就是说，当n充分大时，T分布近似于标准正态分布。但若n较小，两种分布差别较大。（2）数字特征：若，n2则自由度为1的t-分布也称为柯西（Cauchy）分布,此时期望方差都不存在。记法：记t-分布的α-上侧分位数为对于较大的自由度n(譬如n60),可用正态分布近似代表T分布来简化计算1.4.F分布定义：设且X与Y独立，则有变量服从自由度为（n1,n2）的F分布，记作：，其密度函数为：F分布性质：（1）若，则（2）分布的α上侧分位数记作，具体有：（3）由，可推出：二、假设检验一、假设检验的基本问题存在问题：由于我们对用户画像是基于用户的交易记录和习惯做出的性别判断，所以用户标签数据可能存在倾斜，这样会存在用画像数据性别比例代替用户总体性别比例可能存在偏差，怎么办？具体问题2：如果到市场上去买鸡蛋，商家声称坏鸡蛋的比例是1%，市场监督员检测了五个鸡蛋，有一个环鸡蛋，那么商家说的话是否可信？事先对总体参数作某种假设（均值、方差、比率），然后利用样本信息来判断假设是否成立的过程称为假设检验。具体问题1：想看一下当前美团用户画像中女性用户所占比例是否能代表总体用户的性别比例？1.1.假设的陈述统计假设：对总体参数具体数值所做的陈述，称为假设（统计假设）。假设检验：分为两步：先对总体参数提出某种假设-然后利用样本信息判断假设是否成立，这个过程称假设检验过程。原假设H0：一般情况下把研究者想要收集证据予以反对的假设成为原假设(一般用H0表示)被择假设H1:将研究者想收集证据来支持的假设称为被择假设(一般用H1表示)两类检验：双尾检验（被择假无特定的方向性，一般体现在被择假设中有“≠”）单尾检验（被择假设有特定的方向性，含有符号“”或“”的假设）假设的基本形式如下：1.2.假设检验的思维逻辑：1）反证法2）小概率实验在一次观察或实验中几乎不可能发生。如果在一次实验中小概率实验发生了，那我们就拒绝原假设，否则就接受原假设。作出推断结论不能拒绝H0拒绝H0，接受H1P≤αPα确定检验水平α选定检验方法，计算检验统计量确定Ｐ值建立假设，确定单双侧检验1.3、假设检验的步骤p值（观测到的显著性水平）：若原假设H0是正确的，对H0所规定的总体作随机抽样，计算等于或大于现有样本统计量值的概率。两种判别方法：1、利用统计量做出决策：给定的显著性水平α，查表可以查到统计量的临界值，将计算的统计量临界值对比，即可做出最终决策。2、根据计算的P值与显著性水平α的关系决策：给定的显著性水平α，若αp则不能拒绝原假设，若αp则拒绝原假设。2）根据问题确定单双侧检验。2）建立假设H0,H1。1）α为第一类错误概率，通常取0.05、0.1，根据需求调节2）在H0成立的条件下，由样本已知信息构造统计量。根据研究目的，设计的类型、样本的数量选择合适统计量。1.4.两类错误的显著性水平第一类错误：当原假设为真的时候，我们又拒绝了原假设，称为弃真错误，通常记为α第二类错误：当原假设是错误的时候，检验的结果没能拒绝原假设，称为取伪错误，取β分别犯两类错误的情况是什么？两种错误的关系？无论何种情况下都不可能避免不犯两类错误。当样本容量不变时候，减小α就会使β增大,减小β会增大α，所以要让α和β同时减小的唯一办法就是增大样本的容量；实际问题是：增加样本容量会受到很多限制因素，所以会在两类错误中选择一个权衡。譬如说：如果犯第一类错误的概率比第二类错误严重，就将犯第一类错误的概率设置的低一点，反之亦然。检验统计量：根据样本数据计算得到的，并对原假设和被择假设做出决策的样本统计量（统计量中不含未知参数）检验统计量的作用如下图：二、几种单总体参数的检验2.1.总体均值检验检验中的几个问题：总体均值的检验中，采取何种检验统计量取决于所抽取的样本的多少（统计上吧大于30个样本称为大样本，小于30的样本称为小样本），此外还需要区分总体是否服从正态分布，总体方差是否已知等情况。具体问题：美团商户中销售的某种（标准是容量225ml,标准差为5ml）灌装饮料被消费者投诉装量不标准的问题，为此公司决定对该类饮料的装量进行调研来确定公司售卖的饮料是否存在此类问题。对此调研人员随机从商城中抽取了400罐进行检验，测得每罐的平均容量为255.8ml,这里取显著性水平α=0.05，来检验商城的饮料是否符合标准。1、建立假设：此时关心的问题是装量是否符合标准，具体到问题就是总体的瓶装量是否为225ml所以建立假设：2、确定检验水平：给出显著水平α=0.053、确定并计算检验统计量：（若H0成立，样本均值服从）4.确定P值和Z值的大小：p=0.000342,5、决策：p0.05,Z1.96所以拒绝原假设H0，说明饮料装量的规格确实不符合标准。总体均值的检验规则(正态，小样本，方差已知)总体均值的检验规则(正态，方差未知，小样本情形)在小样本的情况下统计量的选择主要看方差是否已知。其他情况下检验统计量的选择：主要是看在大样本的条件下，看总体的方差是否已知，总体方差已知则用总体方差，总体未知就用样本方差代替。总体均值的检验规则(大样本情况)2.2、总体比率检验类似于检验公司男女性别比例是否等于画像数据中用户比率的检验问题，这类问题就是比率检验，方法和步骤与总体均值类似，不同点是统计量的差异。总体比率的检验统计量设二项分布的正态近似：注：试用的条件是，np5且nq5所以对比率的检验可构造检验统计量问题：通过对公司用户画像数据进行性别分类，发现男性用户占42%，女性用户占到了58%，那么这个结果是否可信？调研：为验证此比例数据是否可用，通过数据库随机挑选1000位用户ID，再通过电话访问确定该用户的性别。发现有473人是男性，527是女性用户，取显著性水平α=0.05验证此比例数据能否代表公司用户比例。一、建立假设：公司数据显示男性占比42%，因此提出原假设和备择假设如下二、计算统计量：根据调研结果，计算p=473/1000=47.3%,检验统计量为三、统计决策：根据显著性水平α=0.05，查标准正态分布表的临界值，则拒绝原假设H0，说明公司画像数据不能代替公司全部用户的性别比例。z01.96-1.9668.8拒绝H0拒绝H0-68.82.3、总体方差的检验生产生活中仅仅保持样本的均值维持在一定水平是不够的，并不意味着整个过程都能正常运转，方差的大小是否适度也是需要考虑和控制的问题，以此避免过程中出现的偏差比较大的情况发生。目的：检验一个总体的方差或标准差，使用卡方统计量。前提：总体服从正态分布总体方差的检验统计量检验统计量都是一样的，针对不同问题类型，选择不同的检验类型。样本方差假设的总体方差问题：啤酒生产企业采用自动生产线灌装啤酒，每瓶的装填量为640ml，但由于受某些不可控因素的影响，每瓶的装填量会有差异。此时，不仅每瓶的平均装填量很重要，装填量的方差同样很重要。如果方差很大，会出现装填量太多或太少的情况，这样要么生产企业不划算，要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过和不应低于4ml。企业质检部门抽取了10瓶啤酒进行检验，得到的样本标准差为s=3.8ml。试以0.10的显著性水平检验装填量的标准差是否符合要求？一、建立建设：H0:2=42H1:242=0.10df=10-1=9二、计算统计量：016.91903.32511/2=0.05三、做出决策：三、几种双总体参数的检验3.1、两总体均值的检验正态总体方差已知或者大样本情形正态，方差未知，小样本情形假定条件：1）两对比总体相互独立。2）两总体服从正态分布图。3）若不是正态分布，两者都是大样本也可用正态分布近似3.2、两总体比率的对比检验两个总体比率之差的检验规则假定条件：np5,nq5,样本比率可用正态分布来近似(大样本)3.3、两总体比率的对比检验两个总体方差比较的检验规则假定条件：两个独立样本，且服从正态分布FF1F拒绝H0拒绝H0三、方差分析一、方差分析的问题引入具体问题：公司各个BG都会受到消费者的投诉，这里想看下不同BG被投诉次数之间是否有明显的区别。问题分析：问题转化为分类型自变量对数值型的因变量是否有显著的差异。1.1.方差分析的几个概念方差分析：检验多个总体均值是否相等的统计方法，称为方差分析。因素：方差分析中所要检验的对象称作因素（上述问题中的BG就是因素）水平：因素的不同表现称为水平（到餐、到综、外卖、酒旅）1.2.方差分析思想归根结底，方差分析的思想就是把方差的来源拆分成不同来源，看分类型的变量对方差的影响程度。随机误差：在到餐BG中，我们随机抽取了七各月的投诉次数，由于这个过程中抽取的随机性造成的误差称为随机误差；来自水平内部的数据误差为组内误差（SSE）系统误差：由于不同BG的本身特性影响造成的误差称为系统误差;来自不同水平之间的误差为组间误差（SSA）如果不同BG对投诉的次数无影响，那么组间的误差只有随机误差，而没有系统误差。这是组间误差与组内误差经过平均后的值（均方误差或方差）应该接近，比值应该接近1；若不同BG对投诉次数有影响，那么组间误差中除了包含随机误差外还包含系统误差，这时组间误差平均后的均值就会大于组内误差平均后的均值，他们之间的比值就会大于1；当这个比例大到某种程度就认为不同的BG在投诉次数之间存在着显著差异。1.3.方差分析的基本假定1）每个总体都应该服从正态分布2）各个总体的方差西格玛^2应该相同，也就是各组的样本数据是从具有相同方差的正态总体中抽取的3）观测值独立，也就是说不同BG下抽中的投诉次数与其他BG下抽中的投诉次数之间没有关系2.1.分析步骤1）提出假设：假设不同BG被投诉的次数之间无差异当选择原假设或被择假设情况下的解释？2）构造检验统计量：组内均方（服从自由度n-k的卡方分布）=478.7二、方差分析通过总平方和(SST)、组间平方和(SSA)、组内平方和(SSE)的计算方式