数学资源网—2第一章课后习题解答(第1页共6页)新课程标准数学选修1—2第一章课后习题解答第一章统计案例1.1回归分析的基本思想及其初步应用练习(P8)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.(2)分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等.本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.(2)21R.说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,所以每个样本点的残差均为0,残差平方和也为0,即此时的模型为ybxa,没有随机误差项,是严格的一次函数关系.通过计算可得21R.习题1.1(P9)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.(2)用ty表示GDP值,t表示年份.根据截距和斜率的最小二乘计算公式,得ˆ14292537.729a,ˆ7191.969b从而得线性回归方程ˆ7191.96914292537.729yt.残差计算结果见下表.数学资源网—2第一章课后习题解答(第2页共6页)GDP值与年份线性拟合残差表年份19931994199519961997残差6422.2691489.2383037.4935252.0244638.055年份19981999200020012002残差1328.6852140.9841932.3531277.622993.791(3)2003年的GDP预报值为112976.360,根据国家统计局2004年的统计,2003年实际GDP值为117251.9,所以预报与实际相差4275.540.(4)上面建立的回归方程的20.974R,说明年份能够解释约97%的GDP值变化,因此所建立的模型能够很好地刻画GDP和年份的关系.说明:关于2003年的GDP值的来源,不同的渠道可能会有所不同.2、说明:本题的结果与具体的数据有关,所以答案不唯一.3、由表中数据得散点图如下:从散点图中可以看出,震级x与大于或等于该震级的地震数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.做变换lgyN,得到的数据如下表所示.x33.23.43.63.844.24.44.64.85y4.4534.3094.1704.0293.8833.7413.5853.4313.2833.1322.988x5.25.45.65.866.26.46.66.87y2.8732.7812.6382.4382.3142.1701.9911.7561.6131.398x和y的散点图如下:数学资源网—2第一章课后习题解答(第3页共6页)从这个散点图中可以看出x和y之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系.根据截距和斜率的最小二乘计算公式,得ˆ6.704a,ˆ0.741b,故线性回归方程为ˆ0.7416.704yx.20.997R,说明x可以解释y的99.7%的变化.因此,可以用回归方程0.7416.704ˆ10xN描述x和N之间的关系.1.2独立性检验的基本思想及其初步应用练习(P15)列联表的条形图如图所示.由图及表直观判断,好像“成绩优秀与班级有关系”.因为2K的观测值0.6536.635k,由教科书中表1-11克重,在犯错误的概率不超过0.01的前提下,不能认为“成绩与班级有关系”.说明:(1)教师应要求学生画出等高条形图后,从图形上判断两个分类变量之间是否有关系.这里通过图形的直观感觉的结果可能会出错.(2)本题与例题不同,本题计算得到的2K的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”.这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立.在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾.习题1.2(P16)1、假设“服药与患病之间没有关系”,则2K的值应该比较小;如果2K的值很大,则说明很可能“服药与患病之间没有关系”.由列联表中数据可得2K的观测值6.1105.024k,而由教科书表1-11,得2(5.024)0.025PK,所以在犯错误的概率不超过0.025的前提下可以数学资源网—2第一章课后习题解答(第4页共6页)认为“服药与患病之间有关系”.又因为服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用.因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:仿照例1,学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,由题目中所给数据计算,得2K的观测值为8.416k,而由教科书中表1-11知2(7.879)0.005PK,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”.3、说明:需要收集数据,所有没有统一答案.第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、说明:需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同.第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章复习参考题A组(P19)1、1993~2002年中国人口总数如下表:年份1993199419951996199719981999200020012002年末人数万人118517119850121121122389123626124761125786126743127627128453将年份作为横轴,相应年份全国人口总数作为纵轴,根据表中数据作散点图如下:根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得2095141.503a,1110.903b,则线性回归方程为ˆ1110.9032095141.503yx.由2R的计算公式,得20.994R,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988数学资源网—2第一章课后习题解答(第5页共6页)万人,预测误差为1120万人.说明:数据来源为《中国统计年鉴》(2003).由于人数为整数,所以预测的数据经过四舍五入的取整运算.2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得ˆ1334.5a,ˆ0.026b,则线性回归方程为ˆ0.0261334.5yx其残差值计算结果见下表:销售总额126974969338665663438552645097639069361563520932416利润422438353510375839391809294635924802413残差361.03419.01542.894779.4871189.742830.486611.3341901.09244.150248.650(3)对于(2)中所建立的线性回归方程,20.457R,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系.说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K的观测值为3.689k,而由教科书中表1-11知2(2.706)0.10PK所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章复习参考题B组(P19)1、因为21(,)()niiiQabyabx21(()())niiiybxybxaybx数学资源网—2第一章课后习题解答(第6页共6页)2211()()nniiiiybxybxaybx12()()niiiybxybxaybx并且221()()niaybxnaybx,12()()niiiybxybxaybx1()(())niiiaybxybxnynbx()()0aybxnynbxnynbx所以221(,)()()niiiQabybxybxnaybx.考察上面的等式,等号右边的求和号中不包含a,而另外一项非负,所以ˆa和ˆb必然使得等号右边的最后一项达到最小值,即ˆˆ0aybx,即ˆˆyabx.2、总偏差平方和21()niiyy表示总的效应,即因变量的变化效应;残差平方和21ˆ()niiyy表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()niyy表示表示变量的效应,即自变量的变化效应.等式222111ˆˆ()()()nnniiiiiyyyyyy表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和.3、说明:该题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.