超詳細SPSS操作:多重線性回歸(完整版)

一、問題與數據

最大攜氧能力(maximal aerobic capacity,VO2max)是評價人體健康的關鍵指標,但因測量方法複雜,不易實現。具體原因在於,它不僅需要昂貴的試驗設備,還需要受試者運動到個人承受能力的極限,無法測量那些沒有運動意願或患有高危疾病無法運動的受試者。

因此,某研究者擬通過一些方便、易得的指標建立受試者最大攜氧能力的預測模型。該研究者共招募100位受試者,分別測量他們的最大攜氧能力(VO2max),並收集年齡(age)、體重(weight)、心率(heart_rate)和性別(gender)等變數信息,部分數據如下:

註:心率(heart_rate)測量的是受試者進行20分鐘低強度踏板試驗中,最後5分鐘的平均心率。

二、問題的分析

研究者想根據一些變數(age、weight、heart_rate和gender)預測另一個變數(VO2max)。針對這種情況,我們可以使用多重線性回歸分析,但需要先滿足以下8項假設:

  • 假設1:因變數是連續變數

  • 假設2:自變數不少於2個(連續變數或分類變數都可以)

  • 假設3:具有相互獨立的觀測值

  • 假設4:自變數和因變數之間存在線性關係

  • 假設5:等方差性

  • 假設6:不存在多重共線性

  • 假設7:不存在顯著的異常值

  • 假設8:殘差近似正態分布

  • 那麼,進行多重線性回歸分析時,如何考慮和處理這8項假設呢?

    三、思維導圖

    (點擊圖片可查看大圖)

    四、對假設的判斷

    1. 假設1-2

    假設1和假設2分別要求因變數是連續變數、自變數不少於2個。這與研究設計有關,需根據實際情況判斷。

    2. 假設3-8

    為了檢驗假設3-8,我們需要在SPSS中運行多重線性回歸,並對結果進行一一分析。

    (1) 點擊Analyze→Regression→Linear

    出現下圖:

    (2) 將因變數(VO2max)放入Dependent欄,再將自變數(age,weight, heart_rate和gender)放入Independent欄

    解釋:Previous和Next按鈕是針對層次回歸(sequential/hierarchical multiple regression)的,在本次回歸中可以忽略。同時,Method欄應設置為「Enter」,一般是SPSS自動設置的;如果不是,也應人工設置為「Enter」。

    (3) 點擊Statistics,彈出下圖:

    (4) 在Regression Coefficient框內點選Confidence intervals,設置Level(%)為95%。在Residuals框內點選Durbin-Watson和Casewise diagnosis,並在主對話框內點選Model Fit,Descriptive,Part and partial correlations和Collinearity diagnosis

    (5) 點擊Continue,回到主界面

    (6) 點擊Plots,彈出下圖:

    (7) 在Standardized Residual Plots對話框中點選Histogram和Normal probability,並點選Produce all partial plots

    (8) 點擊Continue回到主對話框

    (9) 點擊Save

    (10) 在Predicted Values框內點選Unstandardized,在Distance框內點選Cook』s和Leverage values,在Residuals框內點選Studentized和Studentized deleted

    (11) 點擊Continue→OK

    經過這些操作,Variable View 和Data View對話框中會增加5個變數:

    這5個變數分別是未標化預測值(unstandardized predicted values,PRE_1),學生化殘差(studentized residuals,SRE_1),學生化刪除殘差(studentized deleted residuals,SDR_1),Cook距離(Cook"s Distance values,COO_1)以及槓桿值(leverage values,LEV_1)。

    根據這5個新增變數和其他結果,我們將逐一對假設3-8進行檢驗。

    假設3:具有相互獨立的觀測值

    觀測值之間相互獨立是多重線性回歸的基本假設之一,主要檢驗的是1st-order autocorrelation,即鄰近的觀測值之間沒有相關性。SPSS中的Durbin-Watson檢驗,剛好可以實現這一目的。

    舉例來說,我們一般按照調查順序錄入數據,將第一位受試者錄入到第一行,再將第二位受試者錄入到第二行。在這種情況下,Durbin-Watson檢驗可以檢測出第一位受試者和第二位受試者之間的相關性。但是如果我們亂序錄入數據,將第一位受試者和可能與他存在自相關的第二位受試者離得很遠,Durbin-Watson檢驗的結果就不準確了。

    其實,觀測值是否相互獨立與研究設計有關。如果研究者確信觀測值不會相互影響,我們甚至可以不進行Durbin-Watson檢驗,直接認定研究滿足假設3。

    在本研究中,我們假設觀測值之間可能存在相關性,即需要進行Durbin-Watson檢驗。

    經過上述操作,SPSS輸出Durbin-Watson檢驗結果為:

    本研究Durbin-Watson檢驗值為1.910。一般來說,Durbin-Watson檢驗值分布在0-4之間,越接近2,觀測值相互獨立的可能性越大。即,本研究中多重線性回歸的觀測值具有相互獨立性,滿足假設3。

    假設4:自變數和因變數之間存在線性關係

    多重線性回歸不僅要求因變數與所有自變數存在線性關係,還要求因變數與每一個自變數之間存在線性關係。應該如何檢驗這個假設呢?

  • 檢驗因變數與所有自變數之間是否存在線性關係

  • 經上述SPSS操作,我們得到未標化預測值(PRE_1)和學生化殘差(SRE_1)兩個新增變數。為檢驗因變數與所有自變數之間是否存在線性關係,我們需要繪製這兩個變數的散點圖。

    (1) 在主菜單點擊Graphs→Chart Builder

    出現下圖:

    (2) 在Chart Builder對話框下,點擊Choose from欄內的Scatter/Dot

    (3) 在中下部的8種圖形中,選擇左上角的那一種(如果點擊這個圖標會出現「Simple Scatter」字樣),並拖拽到主對話框中

    (4) 主對話框中會出現標記「Y-Axis?」和「X-Axis?」的方框

    (5) 將Variables框內的未標化預測值(PRE_1)和學生化殘差(SRE_1)變數分別拖拽到「X-Axis?」和「Y-Axis?」方框內

    (6) 點擊OK,完成散點圖

    一般來說,如果未標化預測值(PRE_1)和學生化殘差(SRE_1)的散點圖呈水平帶狀,就說明多重線性回歸中因變數與所有自變數之間存在線性關係。結果提示,本研究滿足因變數與所有自變數之間存在線性關係的假設。

    為了方便大家理解,我們舉一個因變數與所有自變數之間不存在線性關係的例子,如下:

  • 檢驗因變數與每一個自變數之間是否存在線性關係

  • 為檢驗因變數與每一個自變數之間是否存在線性關係,我們需要分別繪製每個自變數與因變數的散點圖。當然,這是針對連續型自變數而言的,我們可以忽略分類型自變數(如性別)與因變數之間的線性關係。

    點選Linear Regression:Plots對話框中的Produce all partial plots,SPSS可以自動輸出每個自變數與因變數的散點圖,如下:

    年齡:最大攜氧能力(VO2max)與年齡(age)之間存在近似線性關係

    體重:最大攜氧能力(VO2max)與體重(weight)之間存在線性關係

    心率:最大攜氧能力(VO2max)與心率(hear_rate)之間存在近似線性關係

    綜上,我們認為本研究滿足因變數與每一個自變數之間存在線性關係的假設。

    大家可能對如何根據散點圖判斷線性關係存在疑問,我們舉例如下:

    在多重線性回歸分析中,如果因變數與某一自變數的散點圖呈水平分布,即斜率為0,我們就認為該二者之間不存在線性關係。但如果散點分布近似直線,且斜率不為0,我們就認為該數據滿足假設4。

    假設5:等方差性

    等方差性也可以通過學生化殘差(SRE_1)與未標化預測值(PRE_1)之間的散點圖進行檢驗,「假設4」中繪製散點圖如下:

    如果存在等方差性,不同預測值對應的殘差應大致相同。即圖中各點均勻分布,不會出現特殊的分布形狀。如果散點圖分布不均勻,形成漏斗或者扇形,那麼回歸就不具有等方差性,如下:

    increasing funnel上升漏斗;decreasing funnel下降漏斗;fan shaped扇形

    本研究中學生化殘差與未標化預測值散點圖的各點均勻分布,提示該數據符合等方差性,即滿足假設5。

    當然,如果研究結果提示不滿足等方差性假設,我們也可以通過一些統計手段進行矯正。比如,採用加權最小二乘法回歸方程,改用更加穩健的回歸或者有穩健標準差結果的回歸以及對自變數進行轉換等。

    假設6:不存在多重共線性

    當回歸中存在2個或多個自變數高度相關時,就會出現多重共線。它不僅可以影響自變數對因變數變異的解釋能力,還可以影響整個多重線性回歸模型的擬合。為了檢驗假設6,我們主要關注相關係數(correlation coefficients)和容忍度/方差膨脹因子(Tolerance/VIF )兩類指標。

  • 相關係數

  • 點擊 Linear Regression: Statistics 對話框中的Descriptive,SPSS可以輸出Correlation結果,如下:

    一般來說,如果自變數之間的相關係數大於0.7,我們就會懷疑可能存在多重共線性。本研究中,任意兩個自變數的相關係數都小於0.7,提示數據中不存在多重共線性。

  • 容忍度/方差膨脹因子

  • 為了檢驗假設6,我們需要根據容忍度(Tolerance)和方差膨脹因子(VIF)進一步判斷。

    實際上,方差膨脹因子是容忍度的倒數(1/容忍度),我們只需要判斷其中一個指標即可。如果容忍度小於0.1,方差膨脹因子大於10,提示數據存在多重共線性。在本研究中,所有容忍度值都大於0.1(最小值為0.765),說明數據滿足假設6。

    假設7:不存在顯著的異常值

    根據作用方式的不同,多重線性回歸異常值主要分為離群值(outliers)、強槓桿點(leverage points)和影響點(influential points)3類。異常的觀測值可以符合其中一類或幾類。但無論是哪一種都對多重線性回歸的擬合與推論有著嚴重的負面影響。好在我們可以通過SPSS檢測這些異常值。

  • 離群值

  • 離群值是指實際值與預測值相差較大的數據,可以通過標化殘差、學生化殘差以及學生化刪除殘進行檢測。在這裡,我們主要向大家介紹標化殘差(Casewise Diagnostics檢驗)和學生化刪除殘差兩種方法。

    Casewise Diagnostics檢驗標準是上下3倍標準差,並標記超出此範圍的數據為離群值。本研究中,SPSS輸出的Casewise Diagnostics檢驗結果如下:

    註:如果研究中沒有標化殘差超出3倍標準差的離群值,SPSS就不會輸出該表格。

    本研究中沒有標化殘差超出3倍標準差的離群值,SPSS也未輸出Casewise Diagnostics檢驗結果。為了更好地向大家展示多重線性回歸的過程,我們將檢驗標準改為2倍標準差,SPSS才輸出上述結果。但是值得注意的是,在沒有特殊要求的情況下,我們認為以3倍標準差檢驗離群值比較合理,當然也有一些研究是以2.5倍標準差為檢驗標準的,這需要大家根據實際研究具體決定。

    從上表可以看出,本研究中最嚴重的離群值是第28例數據:

    第28例數據的標化殘差值為2.969,實際值為49.87 ml/min/kg,預測值為32.97 ml/min/kg,差值(殘差值)為16.90 ml/min/kg。如果您認為這是一例離群值,您需要考慮出現它出現的原因(如錄入錯誤),並進行相應的調整。

    本研究以標化殘差的3倍標準差Casewise Diagnostics檢驗為標準,提示該數據沒有離群值。

    SPSS提供的另一種檢測方法,學生化刪除殘差(Studentized deleted residuals),比Casewise Diagnostics檢驗更加穩定。在運行多重線性回歸時,我們的新增變數(SDR_1)就是學生化刪除殘差。

    (1) 右擊SDR_1數據欄

    (2) 選擇「Sort Descending」

    學生化刪除殘差會按照由大到小排序,如下:

    根據學生化刪除殘差排序,大家可以在數據欄的最上方和最下方檢查是否存在超過3倍標準差的離群值。如果存在,就應進行相應的調整或剔除。

  • 強槓桿點

  • 我們主要通過數據的槓桿值檢測強槓桿點。在運行多重線性回歸時,我們的新增變數(LEV_1)就是槓桿值。

    (1) 右擊LEV_1數據欄

    (2) 選擇「Sort Descending」

    槓桿值會按照由大到小排序,如下:

    一般來說,如果槓桿值小於0.2,我們就認為數據安全。但如果槓桿值位於0.2-0.5之間,我們就認為對應數據可能是強槓桿點;若槓桿值大於0.5,數據就很可能是強槓桿點了。在本研究中,數據的槓桿值都小於0.2,即不存在強槓桿點。

  • 強影響點

  • 強影響點主要通過Cook距離進行檢測,多重線性回歸的新增變數(COO_1)就是Cook距離。

    (1) 右擊COO_1數據欄

    (2) 選擇「Sort Descending」

    Cook距離會按照由大到小排序,如下:

    一般來說,如果Cook距離大於1,對應的數據就可能是強影響點。在本研究中,所有數據的Cook距離都小於1,即不存在強影響點。

    綜上,根據本研究的結果和實際情況,我們認為沒有需要處理的異常值。

    (想更詳細了解異常值,請點擊:怎麼判別我的數據中存在特異值?教你幾招!)

    假設8:殘差近似正態分布

    在多重線性回歸中,我們可以使用兩種方法判斷回歸殘差是否近似正態分布:

    (1) 根據標化殘差繪製的帶正態曲線的柱狀圖或P-P圖(2)根據學生化殘差繪製的正態Q-Q圖。我們將向大家逐一介紹。

  • 帶正態曲線的柱狀圖或P-P圖

  • 經上述操作,SPSS輸出結果如下:

    從圖中可以看出,該回歸的標化殘差近似正態分布。但是由於橫縱坐標比例的影響,柱狀圖的結果並不準確。我們可以通過上圖右上角的均值和標準差進一步判斷。一般來說,均值越接近於0,標準差越接近於1,回歸的標化殘差越傾向於正態分布。

    同時,我們也可以通過P-P圖進一步驗證柱狀圖的結果,如下:

    P-P圖上各點的分布離對角線越近,提示數據越接近於正態分布;如果各點都剛好落在對角線上,數據就是完全的正態分布。其實,是否正態分布對多重線性回歸結果的影響較小,一般我們認為只要殘差近似於正態分布即可。因此根據上圖,我們認為該研究滿足假設8。

  • 正態Q-Q圖

  • 另一種可以檢測殘差正態性的方法是正態Q-Q圖,具體操作如下:

    (1) 點擊Analyze→Descriptive Statistics→Q-Q Plot

    出現下圖:

    (2) 將變數SRE_1放入Variables窗口

    (3) 點擊OK,輸出下圖:

    與P-P圖相似,Q-Q圖上各點的分布離對角線越近,也提示數據越接近於正態分布。同樣地,上圖也證實該研究殘差近似正態分布,滿足假設8。

    五、結果解釋

    多重線性回歸可以得到3個主要結果:

    (1) 自變數解釋因變數變異的比例

    (2) 根據新增的自變數信息預測因變數

    (3) 自變數改變一個單位,因變數的變化情況

    為了更好地解釋和報告多重線性回歸的結果,我們需要統計以下3個方面:

    (1) 多重線性回歸模型的擬合程度

    (2) 回歸係數

    (3) 根據自變數預測因變數

    1. 模型解釋

    SPSS輸出變數納入結果,如下:

    其實這個表並不是為多重線性回歸模型設計,主要描述的是逐步回歸和層次回歸的變數納入情況。但我們依舊可以從這個表中看到該研究的基本信息:(1) Variables Entered欄顯示該研究納入的自變數包括gender、age、heat rate和weight;(2) Method欄顯示納入方法為Enter(強制納入);(3) 該回歸模型是Model 1。

    2. 判斷多重線性回歸模型的擬合程度

    判斷多重線性回歸模型擬合程度的指標有很多,我們主要向大家介紹多重相關係數、變異的解釋程度、模型的統計學意義以及預測值的準確性4個指標。

    (1) 多重相關係數(Multiple correlation coefficient,R)

    SPSS多重線性回歸輸出的結果中有Model Summary表格,如下:

    上圖中標黃的指標R就是多重相關係數,相當於多重線性回歸預測值(PRE_1)和因變數實際值(VO2max)的Pearson相關係數。它是判斷兩者之間線性關係的重要指標,也反映了回歸的擬合程度。

    一般來說R值在0-1之間分布,數值越大,線性關係越強。在本研究中,R=0.760,提示中高等相關。但必須強調的是, 多重線性回歸的結果解釋一般並不關注R值,而關注R2 和adjusted R2值。

    (2) 變異的解釋程度(R2 和adjusted R2

    做過多元分析的研究者大多都聽說過R2,知道R2是指回歸中因變數變異被自變數解釋的程度。但很多人對R2的具體解釋存在誤解,我們將在這裡給大家舉例說明。

    比如,我們想要預測因變數值,最簡單的辦法就是運行空模型,即回歸中僅有因變數,沒有自變數。這時,最佳預測值就是因變數的均數。當然這種空模型也是最差的預測模型,所有自變數對因變數預測值的影響都被我們忽略了。但是在這種空模型中,我們可以估算出回歸預測的總變異。

    隨後,我們把相關的自變數重新放入回歸模型,再次估算回歸變異程度。因為自變數可以在一定程度上影響或解釋因變數的變化情況,加入自變數後的變異會比總變異小。這個減少的部分就是R2值,即自變數解釋因變數變異的程度。

    從上表可知,本研究中R2=0.577,提示自變數可以解釋57.7%的因變數(VO2max)變異。但是,R2是基於樣本數據計算出來的,會誇大自變數對因變數變異的解釋程度。而另一個指標adjusted R2的計算方法不受納入模型自變數個數的限制,相較於R2準確性更好。

    本研究中,adjusted R2=0.559,小於R2=0.577,校正了R2中總體自變數對因變數變異解釋程度的誇大作用。在彙報結果時,adjusted R2更能代表自變數對因變數變異的解釋程度。當然,如果能同時彙報adjusted R2和R2值更好。此外,adjusted R2也是影響程度的評價指標。本研究中,adjusted R2=0.559,提示具有高影響強度。

    (3) 模型的統計學意義

    SPSS輸出ANOVA表格,如下:

    該表中各指標的含義如下:

    結果顯示,本研究回歸模型具有統計學意義,F(4,95)=32.393,P<><>

    注釋:如果SPSS輸出的結果中「Sig」值為「.000」,代表的是P<0.001,而不是p=0.000。同時,如果p>0.05,我們最好在報告中寫清楚具體數值,如P=0.092,從而讀者提供更多的信息。

    3. 回歸係數的解釋

    本研究的回歸方程可以表示為:

    VO2max = b0 + b1 × age + b2 × weight + b3 × heart_rate + b4 × gender

    其中,b0是截距,b1-b4是斜率。如果可以得到這5個指標,我們就可以根據自變數(年齡age,體重weight,心率heart_rate和性別gender)預測因變數(最大攜氧能力 VO2max )了。SPSS對回歸截距和斜率的輸出結果如下:

    在SPSS中,截距被稱為「Constant」,即87.830,如下:

    實際上,我們並不是關注回歸的截距指標。它是指當自變數值都為0時,因變數的值。這種截距值並不是真實存在的,為了避免對數據的過度挖掘,我們在這裡不再進一步討論。根據P值,我們可以判斷截距的統計學意義,如下:

    P<>

    從上圖可以看出,年齡的斜率為-0.165。一般來說,斜率代表的是自變數每改變一個單位因變數的變化值,即年齡每增加1歲,最大攜氧能力就會降低0.165 ml/min/kg。因為年齡的斜率是負值,所以當年齡增加時,最大攜氧能力降低。同樣地,如果斜率是正值,那麼每當年齡增加,最大攜氧能力也會增加。

    從另一個角度來說,該研究結果具有專業意義,人體最大攜氧能力就是隨著年齡的增加而降低的。同時,我們還需要注意到,這種最大攜氧能力隨年齡的變化情況是在控制了其他幾個自變數的情況下計算出來的。只要其他幾個自變數的數值不變,年齡每增加1歲,最大攜氧能力就下降0.165 ml/min/kg。

    此外,我們也可以對斜率進行一些運算。如,我們希望計算年齡每增加10歲人體最大攜氧能力的變化情況,只需要將斜率0.165 ml/min/kg×10。即,年齡每增加10歲,人體最大攜氧能力降低1.651 ml/min/kg。

    根據SPSS結果,我們也可以得到斜率的可能範圍,如下標黃部分:

    從表中可以看出,年齡斜率的95%置信區間在-0.290~-0.041ml/min/kg(Lower Bound,Upper Bound)。同時,在Sig欄可以得到斜率的統計學檢驗結果,如下:

    斜率的P值為0.010(在報告中應記為P=0.010),提示斜率值與0的差異有統計學意義,也說明最大攜氧能力和年齡之間存在線性關係。如果斜率的P值大於0.05,證明斜率沒有統計學意義,即斜率值與0的差異沒有統計學意義,說明因變數和自變數之間不存在線性關係。

    其實,95%置信區間與P值之間是有一定聯繫的。如果95%置信區間中不包含0(如0.018~0.056),斜率一般是具有統計學意義,即P<0.05。如果95%置信區間中包含0(如-1~3),斜率沒有統計學意義,即p>0.05。

    同樣地,我們也可以解釋該多重線性回歸中其他連續型自變數的斜率。如,體重每增加1 kg,最大攜氧能力下降0.385 ml/min/kg;心率每增加1 bpm,最大攜氧能力下降0.118 ml/min/kg。

    但值得注意的是,當自變數是分類變數時,我們就不能再按照連續變數的方法解釋。以本研究中的性別變數為例,它的斜率是指不同類別之間的差異。在錄入數據時,我們將女性錄入為0,男性錄入為1。SPSS自動默認是以0組為參照,將1組與0組進行對比,即將男性與女性進行對比。該研究中性別變數的斜率是指這兩個性別之間最大攜氧能力預測值的差異,如下:

    從上圖可以看出,性別的斜率是13.208,提示男性的最大攜氧能力預測值比女性高13.208 ml/min/kg(控制了其他自變數)。從專業的角度上看,男性的平均最大攜氧能力也確實高於女性。同時,我們也可以按照連續變數的分析方法,解釋性別變數的95%置信區間和P值,不再贅述。

    最後將上述係數代入回歸方程,得:

    VO2max = 87.83 – 0.165×age –0.385×weight –0.118×heart_rate + 13.208×gender

    4. 預測因變數

    進行多重線性回歸分析的主要目的之一就是通過自變數預測因變數。在本研究中,研究者之所以建立最大攜氧能力與年齡、體重、心率和性別的回歸模型,是希望通過這些自變數預測最大攜氧能力,以代替昂貴、複雜的檢測手段。

    這一節,我們從根據回歸方程預測因變數開始,逐步向大家介紹計算預測值和95%置信區間的SPSS操作方法及對預測結果的解釋。

    (1) 根據回歸方程計算預測值

    根據SPSS結果,我們得到本研究的回歸方程如下:

    VO2max = 87.83 – 0.165×age –0.385×weight –0.118×heart_rate + 13.208×gender

    比如,我們希望預測一位30歲男性患者的最大攜氧能力,體重80kg,心率133 bpm:

    預測最大攜氧能力= 87.83 – 0.165×30 – 0.385×80 – 0.118×133 + 13.208×1 = 49.59 ml/min/kg

    即30歲男性(體重80kg、心率133 bpm)最大攜氧能力平均預測值為49.59 ml/min/kg。這個預測值有兩種含義。

    第一,如果我們調查了目標人群中所有的30歲男性(體重80kg、心率133 bpm),他們最大攜氧能力的平均值應為49.59 ml/min/kg。第二,如果某位受調查者符合30歲、男性、體重80kg以及心率133 bpm的條件,那麼49.59 ml/min/kg是其最大攜氧能力的最佳估計值。

    第二種含義比較難理解,在此具體說明一下。大家都知道,即使兩個人上述各指標都相同,他們實際的最大攜氧能力也可能不同。我們用平均值描述他們的情況比用某一個人的實際值好,即預測平均值更能代表群體情況。

    (2) 預測值和95%置信區間的SPSS操作方法

    相較於上述(1)的計算方法,SPSS操作可以估計預測值的95%置信區間。我們仍以30歲、男性、體重80kg、心率133 bpm為例,向大家介紹預測值和95%置信區間的SPSS操作方法。

    ① 點擊Analyze→ General Linear Model→ Univariate

    出現下圖:

    ② 將因變數VO2max放入Dependent Variable框內,自變數age、weight、heart_rate和gender放入Covariate(s)框內

    ③ 點擊Paste,出現IBM SPSS Statistics Syntax Editor窗口如下:

    ④ 在/DESIGN= age weight heart_rate gender上方插入/LMATRIX=ALL 1 30 80 133 1,如下:

    語法解釋:在只有一個自變數的簡單線性回歸中,LMATRIX命令允許加入自變數的數值。/LMATRIX=ALL1 30 80 133 1語句中各部分的含義如下:

  • ALL指同時運用斜率和自變數進行預測;

  • 1 指納入回歸截距;

  • 30 指用來預測因變數的自變數age的值;

  • 80指用來預測因變數的自變數weight的值;

  • 133 指用來預測因變數的自變數heat_rate的值;

  • 1指用來預測因變數的自變數gender的值(0=女性;1=男性)。

  • 值得注意的是,/LMATRIX=ALL1 30 80 133 1中各自變數數值的順序必須與「/DESIGN=」行中各自變數的排列順序一致,如下:

    ⑤ 點擊Run→ All,輸出結果:

    (3) 預測結果的解釋

    預測結果在Contrast Results(K Matricx)中展示,如下:

    從Contrast Estimate可以看出,30歲男性(體重80kg、心率133 bpm)的最大攜氧能力預測值為49.63 ml/min/kg。這與回歸方程得到的結果(49.59 ml/min/kg)略有不同,原因在於SPSS保留的運算位數多於直接計算,結果也更準確。

    同時,SPSS操作還提供了其他結果。如,預測值的標準誤(Std. Error)是0.839 ml/min/kg,提示預測值的變異程度。再如,預測值的95%置信區間(Confidence Internal for Difference)為47.962 - 51.294 ml/min/kg。

    但必須注意的是,我們這裡提到的置信區間是預測平均值的置信區間,而不是單個預測值的置信區間。如果我們希望根據某個受試者的年齡、體重、心率和性別預測最大攜氧能力,可以使用回歸方程進行計算,但是得到的區間估計不是置信區間,而是預測區間。由於個體觀測值的不穩定性,預測區間往往比置信區間大。同時,個體預測的預測區間不能通過SPSS自動計算得到。在本章節,我們只需要記得個體預測的預測區間與樣本預測的置信區間不同即可。

    六、撰寫結論

    1. 簡潔彙報

    本研究採用多重線性回歸,根據性別、年齡、體重和心率預測最大攜氧能力。回歸模型具有統計學意義F(4,95) = 32.393(P<>2=0.56。納入模型的4個自變數對最大攜氧能力的影響均有統計學意義(P<>

    表1. 多重線性回歸結果

    2. 具體彙報

    本研究採用多重線性回歸,根據性別、年齡、體重和心率預測最大攜氧能力。通過繪製部分回歸散點圖和學生化殘差與預測值的散點圖,判斷自變數和因變數之間存在線性關係。

    已驗證研究觀測值之間相互獨立(Durbin-Watson檢驗值為1.910);並通過繪製學生化殘差與未標化的預測值之間的散點圖,證實數據具有等方差性。回歸容忍度均大於0.1,不存在多重共線性。異常值檢驗中,不存在學生化刪除殘差大於3倍標準差的觀測值,數據槓桿值均小於0.2,也沒有Cook距離大於1的數值。Q-Q圖提示,研究數據滿足正態假設。

    回歸模型具有統計學意義F(4,95) = 32.393(P<>2=0.56。納入模型的4個自變數對最大攜氧能力的影響均有統計學意義(P<>

    表1. 多重線性回歸結果


    推薦閱讀:

    簡單線性回歸的Python建模方法
    機器學習入門之旅(三)線性模型之線性回歸與最小二乘法
    一文讀懂回歸樣條(regression splines),附Python代碼
    嶺回歸-定義與歷史
    機器學習:線性回歸

    TAG:線性回歸 | SPSS | 回歸 |