1122211()()()nniiiiiinniiiixxyyxynxybxxxnxaybx选修1-2第一部分变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.②用相关系数r(3)除用散点图外,还可用样本相关系数r来衡量两个变量x,y相关关系的强弱,1222211()()niiinniiiixynxyrxnxyny当r>0,表明两个变量正相关,当r<0,表明两个变量负相关,r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|0.75时,认为这两个变量具有很强的线性相关关系.2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆybxa,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n个样本数据(x1,y1)、(x2,y2)、…、(xn,yn),(,)xy称为样本点的中心.样本点中心一定落在回归直线上。4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是22121()1()niiiniiyyRyy2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r1r3【变式1】根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.51010.511销售量y1110865通过分析,发现销售量y与商品的价格x具有线性相关关系,则销售量y关于商品的价格x的线性回归方程为________.(参考公式:b^=,a^=y-b^x)【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x/cm174176176176178儿子身高y/cm175175176177177则y对x的线性回归方程为().A.y=x-1B.y=x+1C.y=88+12xD.y=176题型三独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=nad-dc2a+bc+da+cb+d,算得K2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K2≥k)0.0500.0100.001k3.8416.63510.828对照附表,得到的正确结论是()A.有99%以上的把握认为“选择过马路的方式与性别有关”B.有99%以上的把握认为“选择过马路的方式与性别无关”C.在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数12638618292614乙厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数297185159766218(1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂乙厂合计优质品非优质品合计附K2=nad-bc2a+bc+da+cb+d,P(K2≥k)0.050.01k3.8416.635巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y^=3-5x,变量x增加一个单位时,y平均增加5个单位;③线性回归方程y^=b^x+a^必过(x,y);④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是()A.0B.1C.2D.32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为()A.y^=1.23x+4B.y^=1.23x+5C.y^=1.23x+0.08D.y^=0.08x+1.233.已知x、y取值如下表:x014568y1.31.85.66.17.49.3从所得的散点图分析可知:y与x线性相关,且y^=0.95x+a,则a=()A.1.30B.1.45C.1.65D.1.804.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x(cm)160165170175180体重y(kg)6366707274根据上表可得回归直线方程:y^=0.56x+a^,据此模型预报身高为172cm的高三男生的体重为()A.70.09kgB.70.12kgC.70.55kgD.71.05kg5.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系,则具体计算出的数据应该是()A.k≥6.635B.k<6.635C.k≥7.879D.k<7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.8、某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。现随机抽取甲、乙两班各名的数学期末考试成绩,并作出茎叶图(Ⅰ)依茎叶图判断哪个班的平均分高?(Ⅱ)现从甲班所抽数学成绩不低于分的同学中随机抽取两名同学,求刚好有1人在85分以上的概率(Ⅲ)学校规定:成绩不低于分的为优秀,作出分类变量成绩与教学方式的列联表,并判断“能否在犯错误的概率不超过的前提下认为成绩优秀与教学方式有关?”下面临界值表仅供参考:(参考公式:其中)复习专题一数列1、在等差数列中:(1)已知,,求;(2)已知,,求.(3)已知,,,求a10和S10;(4)已知,,,求和Sn;2、等差数列的前项和为,且,.求数列的通项;3、在等比数列中,(1)已知,,求;(2)已知,,求;4、在等比数列中,.求:(1)首项和公比;(2)前项的和.