啞變數 虛擬變數 線性回歸_spss 線性回歸 啞變數

啞變數 虛擬變數 線性回歸_spss 線性回歸 啞變數

啞變數 虛擬變數 線性回歸_spss 線性回歸 啞變數

啞變數又稱虛擬變數(Dummy Variable),又稱虛設變數、名義變數或啞變數,是量化了的質變數,通常取值為0或1。

在研究一個因變數的時候,解釋變數中除了定量變數,有時候會有一些定型變數,比如性別、年齡、宗教、民族、婚姻狀況、教育程度等。這些定性變數也可以成為指標變數、二元變數或分類變數。此時需要使用虛擬變數。

模型中引入虛擬變數的作用 1、分離異常因素的影響,例如分析我國GDP的時間序列,必須考慮「文革」因素對國民經濟的破壞性影響,剔除不可比的「文革」因素。 2、檢驗不同屬性類型對因變數的作用,例如工資模型中的文化程度、季節對銷售額的影響。 3、提高模型的精度,相當與將不同屬性的樣本合併,擴大了樣本容量(增加了誤差自由度,從而降低了誤差方差)

虛擬變數設置的原則 在模型中引入多個虛擬變數時,虛擬變數的個數應按下列原則確定: 如果有m種互斥的屬性類型,在模型中引入(m-1)個虛擬變數。

引入啞變數可使線形回歸模型變得更複雜,但對問題描述更簡明,一個方程能達到倆個方程的作用,而且接近現實。 如果某個因素有n種選擇,則將其用啞變數引入模型時,要設置n-1個啞變數,以避免完全的多重共線性。如性別的選擇有兩種,則引入一個啞變數,是男則數值為1,否則為0,當然也可以設置為女為1,否則為0。季節的選擇有4個,則引入3個啞變數,啞變數1:春為1,否則為0.啞變數2:夏為1,否則為0.啞變數3:秋為1,否則為0

SPSS的具體操作 Recode——into different variables…——把「類別變數」選入「待轉換變數」 框中,在Output Variable 框的Name 和 Lable 中分別輸入新變數名和標籤,然後change——old and new:在Old values 的Value 中輸入1,在New Value 中輸入1碼,然後add,其次分別輸入2、0,add;以此類推,最後輸入7,0,add——continue——ok. 這樣就編完了以「第一項」為1,其他科研項目為0的一個二分變數。接著繼續編以「第二項」為1,其他為0的二分變數;其它選項以此類推。

注意 定義好所有的啞變數之後,接下來就可以進行多元線性回歸的計算了。由於啞變數是一個整體變數,所以進行變數篩選時必須共同進退。因此,將所有啞變數同一般變數一下直接進行篩選是不對的,會出現一部分變數進入一部分變數未進入的情形。

解決的方法是:將同一因素下的啞變數進行歸組(block),在納入方法中選擇了「ENTER」來確保這些啞變數同進同出,而其它因素的啞變數另一組(block),除啞變數之外,其餘自變數歸為一個block,納入方法為STEPWISE。結果的解讀方面,只要啞變數有其中一個有統計學顯著性,就應該把整個因素包含的啞變數納入回歸方程。

解析:虛擬變數是相對來看的。比如年級變數有三個年級:一年級 二年級 三年級。設置了兩個虛擬變數,如果這兩個虛擬變數有差異,理解為這兩個虛擬變數相對於另一個年級有顯著差異。同差將第一個值作為參考對象,即將一年級作為參考對象,那兩個虛擬變數分別就表示二年級和三年級,當出現顯著差異,就表示二年級和三年級相對於一年級在因變數上有顯著差異。數據分析培訓


推薦閱讀:

嶺回歸-最小二乘估計
筆記:簡單理解線性回歸
簡單線性回歸和邏輯回歸(五)
線性回歸和邏輯回歸的聯繫(廣義線性模型以及指數分布族略講)

TAG:SPSS | SPSS數據分析 | 線性回歸 |