考纲要求考纲研读1.了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.2.独立检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.回归分析了解回归的基本思想、方法及其简单应用.在回归分析与独立性检验中.(1)利用最小二乘法求出线性回归直线(2)利用独立性检验判断两个变量是否有关第3讲回归分析与独立性检验1.回归分析相关关系(1)定义:对具有__________的两个变量进行统计分析的方法.(2)回归分析的步骤:①确定研究对象,明确解释变量和预报变量;②画出散点图,观察它们是否存在相关关系(如线性相关关系);③确定回归方程的类型(如线性回归方程y^=b^x+a^);④按一般规则估计回归方程中的参数(如最小二乘法);⑤得出结果后分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否恰当.2.独立性检验没有关系(1)假设H0:两个分类变量X和Y___________;(2)利用公式,计算出随机变量K2=______________________.nad-bc2a+ba+cb+dc+d其中用到两个分类变量X和Y的频数表,即2×2列联表:(3)用K2的大小通过查表可以决定是否拒绝原来的统计假设H0,若K2的值较大,就拒绝H0,即拒绝X和Y无关.例如:当K2≥3.841时,则有95%的把握说X和Y有关.当K2≥6.635时,则有99%的把握说X和Y有关.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dP(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828)C1.在两个变量的回归分析中,作散点图是为了(A.直接求出回归直线方程B.直接求出回归方程C.根据经验选定回归方程的类型D.估计回归方程的参数2.在画两个变量的散点图时,下面哪个叙述是正确的()BA.预报变量在x轴上,解释变量在y轴上B.解释变量在x轴上,预报变量在y轴上C.可以选择两个变量中任意一个变量在x轴上D.可以选择两个变量中任意一个变量在y轴上3.对于事件A和事件B,通过计算得到K2的观测值k≈4.325,下列说法正确的是()BA.有99%以上的把握说事件A和事件B有关B.有95%以上的把握说事件A和事件B有关C.有99%以上的把握说事件A和事件B无关D.有95%以上的把握说事件A和事件B无关4.下面是一个2×2列联表:则表中a,b的值分别为________.10,30y1y2总计x1a4555x2203050总计b75x0123y13575.已知x与y之间的一组数据:(1.5,4)则y与x的线性回归方程为y=bx+a必过点_______.零件的个数x(个)2345加工的时间y(小时)2.5344.5考点1回归分析例1:某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:由资料知y对x呈线性关系.(2)试预测加工10个零件需要多少时间?(1)求出y关于x的线性回归方程y^=b^x+a^;41422144iiiiixyxyxx解析:(1)由表中数据得x-=3.5,y-=3.5,41iixyi=52.5,41ix2i=54,∴b^==0.7,a^=y--b^x-=1.05.故线性回归方程为y^=0.7x+1.05.(2)将x=10代入回归直线方程得y^=0.7×10+1.05=8.05(小时).故预测加工10个零件需要8.05个小时.x3456y2.5t44.5【互动探究】1.(2010年广东揭阳二模)下表提供了某厂节能降耗技术改造后生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.根据下表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,那么表中t的值为()AA.3B.3.15C.3.5D.4.5解析:因a=y--bx-由回归方程知0.35=y--0.7x-=2.5+t+4+4.54-0.7×3+4+5+64,解得t=3.y^杂质高杂质低旧设备37121新设备22202考点2独立性检验例2:冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:根据以上数据试判断含杂质的高低与设备改造有无关系?杂质高杂质低总计旧设备37121158新设备22202224总计59323382由公式得K2=提出假设H0:含杂质的高低与设备改造没有关系.382×37×202-121×222158×224×59×323≈13.11.由于13.1110.828,故有99.9%的把握认为含杂质的高低与设备是否改造是有关系的.解析:由已知数据得到如下2×2列联表:两个分类变量X,Y是否有关系的独立性检验的步骤:①根据题意,列出2×2列联表;②提出假设利用公式,由观测数据,求出K2的观测值k;③作判断,如果k≥k0,就以[1-P(K2≥k0)]×100%的把握认为“X和Y有关系”.否则就说样本数据没有提供充分的证据说明“X和Y有关系”.冷漠不冷漠总计多看电视6842110少看电视203858总计8880168【互动探究】2.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:则大约有多大的把握认为多看电视与人变冷漠有关系()AA.99.9%B.97.5%C.95%D.90%喜爱运动不喜爱运动总计男1016女614总计30考点3独立性检验与概率的结合例3:第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余不喜爱.(1)根据以上数据完成以下2×2列联表:P(K2≥k0)0.400.250.100.010k00.7081.3232.7066.635参考公式:K=(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?(3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,则抽出的志愿者中2人都能胜任翻译工作的概率是多少?2nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.参考数据:喜爱运动不喜爱运动总计男10616女6814总计161430解析:(1)完成2×2列联表如下:(2)假设:是否喜爱运动与性别无关,由已知数据可求得:K2=30×10×8-6×6210+66+810+66+8≈1.15752.706.解题思路:代入公式进行计算即可.因此,在犯错的概率不超过0.10的前提下不能判断喜爱运动与性别有关.(3)喜欢运动的女志愿者有6人,设分别为A,B,C,D,E,F,其中A,B,C,D会外语,则从这6人中任取2人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF共15种取法,其中两人都会外语的有AB,AC,AD,BC,BD,CD共6种.故抽出的志愿者中2人都能胜任翻译工作的概率是p=615=25.序号12345678910数学成绩95758094926567849871物理成绩90637287917158829381序号11121314151617181920数学成绩67936478779057837283物理成绩77824885699161847886【互动探究】3.(2010年广东广州调研)某学校课题组为了研究学生的数学成绩与物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(满分100分)如下表:数学成绩优秀数学成绩不优秀合计物理成绩优秀物理成绩不优秀合计20若单科成绩85分以上(含85分),则该科成绩为优秀.(1)根据上表完成下面的2×2列联表(单位:人):(2)根据题(1)中表格的数据计算,有多大的把握,认为学生的数学成绩与物理成绩之间有关系?(3)若从这20个人中抽出1人来了解有关情况,求抽到的学生数学成绩与物理成绩至少有一门不优秀的概率.P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828参考数据:①假设有两个分类变量X和Y,它们的值域分别为(x1,x2)和(y1,y2),其样本频数列联表(称为2×2列联表)为:则随机变量K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d为样本容量;②独立检验随机变量K2临界值参考表:y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d数学成绩优秀数学成绩不优秀合计物理成绩优秀527物理成绩不优秀11213合计61420解:(1)2×2列联表为(单位:人):(2)提出假设H0:学生数学成绩与物理成绩之间没有关系.根据列联表可以求得K2=20×5×12-1×22≈8.8027.879.6×14×7×13当H0成立时,P(K27.879)=0.005.所以我们有99.5%的把握认为:学生的数学成绩与物理成绩之间有关系.(3)由(1)可知数学成绩与物理成绩都优秀的学生的人数为5人,则数学成绩与物理成绩至少有一门不优秀的学生人数为15人.故从20名学生中抽出1名,抽到的学生数学成绩与物理成绩至少有一门不优秀的概率为1520=34.1.独立性检验的思想来自于统计上的假设检验思想,它与反证法类似,它们都是先假设结论不成立,然后根据是否能推出“矛盾”来判定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指不符合逻辑的事件发生;而假设检验中的“矛盾”是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.2.独立事件没有直观性,必须依靠K2的观测值k作判断.独立性检验的随机变量K2=2.706是判断是否有关系的临界值,K22.706应判断为没有充分证据显示X与Y有关系,而不能作为小于90%的量化值来判断.