十一、簡單相關與簡單直線回歸分析(SimpleCorrelationsandSimpleLinearRegression)劉仁沛教授國立台灣大學農藝學研究所生物統計組國家衛生研究院生物統計與生物資訊組jpliu@ntu.edu.tw例1:氮肥用量與水稻穀收量表(公斤)氮肥用量x00.51.01.52.02.5稻穀收量y101832485562例2:成人年齡與血液中膽固醇的量年齡x343944464851膽固醇y(mg/ml)141.4180.5178.4212.0203.2224.1年齡x53661656667膽固醇y(mg/ml)186.0350.0286.3287.6330.3371.3例3:年雨量與小麥產量年雨量(公厘/20)23.520.422.825.928.927.126.825.2產量(公斤/100)20.423.033.535.844.641.245.439.0氮肥用量與稻穀收量的ScatterPlot01020304050607000.511.522.53氮肥用量x稻穀收量y年齡與膽固醇量的ScatterPlot0100200300400020406080年齡x膽固醇y(mg/ml)年雨量與小麥產量的ScatterPlot0102030405005101520253035年雨量(公厘/20)產量(公斤/100)探討兩個變數之間的關係問題:兩個變數間是否存在直線關係?將直線關係以方程式表示資料型態(xi,yi)假定(Assumption)1.每對資料均為獨立2.常態3.相同變方4.X與Y的關係為直線簡單關係數(Simplecorrelationcoefficient)簡單直線回歸(SimpleLinearRegression)模式建立之推論(ModelsandInference)回歸模式直線性檢定(EvaluationofLinearity)假定之確認(CheckingtheModelAssumptions)ⅡⅠⅢⅣⅡⅠⅢⅣⅡⅠⅢⅣμχμχμχμyμyμyy(a)ρ0正相關(b)ρ0負相關(c)ρ=0無相關圖11.8b三種不同族群相關散播圖象限(χ-μχ)(y-μy)(χ-μχ)(y-μy)Ⅰ+++Ⅱ-+-Ⅲ--+Ⅳ+--正相關:落在第Ⅰ及Ⅲ象限的點數落在第Ⅱ及Ⅳ象限的點數負相關:落在第Ⅰ及Ⅲ象限的點數落在第Ⅱ及Ⅳ象限的點數無相關:落在第Ⅰ及Ⅲ象限的點數=落在第Ⅱ及Ⅳ象限的點數族群簡單相關係數:(x1,y1)…(xN,yN)NiXiYi1NN22iXiYi1i1(X-)(Y-)(X-)(Y-),-1ρ1樣品簡單相關係數樣品資料:(x1,y1),…,(xn,yn)乘積和:X平方和:Y平方和:1111222111222111()()()()()()()()nniinniixyiiiiiininnixxiiiininniyyiiiixySxxyyxynxSxxxnySyyyn12211()()()()niixyinnxxyyiiiixxyySrSSxxyy,r之範圍:1≦r≦-1xyr=1xyr=-1(a)完全正相關(b)完全負相關(a)不完全正相關(b)不完全負相關xy0r1xy-1r0xyr=0xyr=0(a)無相關(b)曲線關系簡單相關係數顯著性檢定H0:ρ=0v.s.Ha:ρ≠0顯著水準:α檢定統計值:22211(2)rnTrrrn決策方法:若|T|tα/2,n-2拒絕H0例:雨量與小麥產量n=8,Σxi=200.5,Σyi=296.52222222(200.5)23.525.251.89888(296.5)34.039.0368.61888(200.5)(296.5)(23.5)(34.0)(25.2)(39.0)129.2688851.89880.9346(368.6188)(129.2688)2820.9346110.934xxyyxyxyxxyySSSSrSSnTrr20.025,606.43666.3462.447HTt拒絕簡單直線回歸(SimpleLinearRegression)水稻穀產量(y)與氮肥用量(x)可以用直線關係描述yi=β0+βxi,i=1,…,6(=n)yi:依變數(Dependentvariable)xi:獨立(自)變數(Independentvariable)β0:截距(Intercept)x=0時y的值β:斜率(Slope)x變動一個單位y變動的量但實際觀測值與直線y=β+βx有差距原因:環境、實驗誤差、量測誤差及其他原因yi=β0+βxi+εi,i=1,…,6(=n)εi:誤差(Error)或殘差(Residual)TheSimpleLinearRegressionModel(Hereβ10)xy-interceptOne-unitchangeinxSlope=β1Meanvalueofywhenxequalsx0Anobservedvalueofywhenxequalsx0yβ00ErrortermStraightlinedefinedbytheequationμy∣x=β0+β1xx0=Aspecificvalueoftheindependentvariablex假定(Assumptions):獨立性(Independent)常態性(Normality)直線關係(Linearity)相同變方(homogeneityofVariance)無數條直線可描述X與Y的關係選擇直線的方法:最小平方法(LeastSquaresMethod)德國大數學家Gauss發明025507500.511.522.53yixiˆ9.6822.11yxe1e2e3e4e6e5圖11.4回歸直線與殘差圖最小平方法02020i=10(Residual):=()=F=()iiiiniiyxyxyx殘差觀測值與迴歸直線垂直距離垂直距離平方殘差平方垂直距離平方和殘差平方和最小平方法觀測值與迴歸直線垂直距離平方和為最小之斜率與截距對及進行偏微分0i00iF=-2(y)0F=-2(y)0iiixxx正常方程式(NormalEquations)020iiiiiinxyxxxy200()()()ˆˆ()1xyiiixxioiiiiiiSxxyybxxSbybxybbxyyybbxin斜率估算值截距估算值推測直線回歸方程式(PredictedLinearRegressionEquations)殘差估算值為當獨立之變數為xi時依變數之最小平方推測平均值ˆiy計算推測直線回歸方程式所需統計值222222221252.8333240.825343967(12)(52.8333)1337.6667(34)(141.4)(39)(180.5)(67)(311.3)(12)(52.8333)(240.925)7558.15141.4180.5311.3(12)(240.925)52100.7825755xxxyyyxyxxnxySSSSbS08.15005.650251337.6667240.925(5.65025)(52.8333)57.5963ˆ57.59635.65025byxxxxyyynxySSS例:成人年齡與血液膽固醇含量假定獨立性常態性直線關係相關變方–殘差εi為常態分布–族群平均值為0–族群變方為σ2AnIllustrationoftheModelAssumptionsy32.545.9XThestraightlinedefinedbytheequationμy∣x=β0+β1x(thelineofmeans)Populationofyvalueswhenx=45.9Populationofyvalueswhenx=32.512.4=Observedvalueofywhenx=32.5Themeanfuelconsumptionwhenx=32.5Themeanfuelconsumptionwhenx=45.99.4=Observedvalueofywhenx=45.9σ2之估算殘差估算值殘差估算值平方殘差(估算值)平方和估算殘差值時必須先計算b0和bSSE之自由度為n-2ˆˆiiiyy22ˆˆ()iiiyy2211201ˆˆ()()nniiiiinixyyxyiSSEyyybbSbS2ˆ/2SSEnMSE斜率與截距變方之估計22202ˆˆ()1()()1()xxxxxxMSEvbSSxvbnSxMSEnS例成人年齡與膽固醇22222052100.7825(5.65025)(7558.15)9395.34559395.3455ˆ(2)122939.53455ˆ935.53455ˆ()0.69941337.66671152.8333()939.53455121337.66672038.8553yyxyxxxxSSESbSSSEMSEnvbSxvbnS斜率H0:β=0V.S.Ha:β≠0顯著水準α檢定統計值(Teststatistic)ˆ()xxbbTvbMSES決策方法若|Tβ|tα/2,n-2拒絕H0β之(1-α)%信賴區間2222ˆ()nnxxbtvbMSEbtS,,截距H0:β0=0V.S.Ha:β0≠0顯著水準α檢定統計值(Teststatistic)00020ˆ()1xxbbTvbxMSEnS決策方法若|Tβ0|tα/2,n-2拒絕H0β0之(1-α)%信賴區間00222022ˆ()1nnxxbtvbxbtMSEnS,,例:成人體重與膽固醇斜率H0:β=0V.S.Ha:β≠0α=0.055.650256.7419ˆ()0.6994bTvb|Tβ|=6.7419t0.025,10=2.228,拒絕H0β之95%信賴區間22ˆ()5.650252.2280.69943.78527,7.51973nbtvb,例:成人體重與膽固醇截距H0:β0=0V.S.Ha:β0≠0α=0.05|Tβ0|=1.2756t0.025,10=2.228β0之95%信賴區間022ˆ()57.59032.2282038.9553158.1987,43.0061nbtvb,00057.59631.2756ˆ()2038.8553bTvb回歸變方分析表總變異可由x解釋之變異不可由x解釋之變異獨立變數XYy0ˆxybb222111(y)()()()()iiiinnniiiiiiiyyyyyyyyyyy總變異=可由x所解釋變異+不可由x解釋變異總平方和=回歸平方和+殘差平方和SST=SSR+SSESyy=bSxy+(Syy-bSxy)自由度:n-1=1+(n-2)迴歸變方平方和變因自由度平方和均方F值迴歸1SSR=b×SxyMSR=SSR/1MSR/MSE殘差n-2SSE=SST-SSRMSE=SSE/(N-2)總計n-1SST222()xyxyxxxxxxxxbSMSRFMSEMSESbSSMSEbSMSEbMSESt例:成人年齡與膽固醇SST=Syy=54001.7825SSR=b×Sxy=(5.65025)×(7558.15)=42705.4370SSE=SST-SSR=51000.7825-42705.4370=9395.