標籤:

工具變數回歸時怎樣理解局部平均(LATE)?


謝邀。其實我沒有很明白題主的意思,我就從工具變數的角度來談一下如何理解LATE吧。

(既然題主的問題比較技術化,在此我假設這篇答案的讀者已經掌握了基本的OLS、2SLS等方法。

首先我們需要從這個題目的背景談起。LATE的大背景是什麼?Treatment effects。所以首先我先引入一些notation。

假設一個個體參與一個項目(treatment),如果參與項目,其outcome為y_1=g_1(x)+u_1,如果不參加,其outcome為y_0=g_0(x)+u_0,我們關心的是個體參與項目與否其outcome的差別,y_1-y_0,或者說,處理效應(treatment effects)。當然,由於異質性,每個人的處理效應是不一樣的,我們經常關注平均處理效應Average Treatment Effects,ATE):E(y_1-y_0)

然而,由於不存在平行世界,我們只能觀察到y_0,y_1其中的一個,而非both。因此我們觀察到的實際上是y=dy_1+(1-d)y_0,其中d是一個0-1函數,代表個人是否參加了這個項目。以上的方程可以寫為:

y=d[g_1(x)+u_1]+(1-d)[g_0(x)+u_0]=g_0(x)+d[g_1(x)-g_0(x)]+u_0+d(u_1-u_0)

其中alpha=g_1(x)-g_0(x)是我們關心的處理效應。我們不妨做一個假設,約束一下函數形式,假設g_0(x)=x,以上式子變成了:

y=x

現在問題來了,如果我們直接ols y on x d是肯定不行的,因為誤差項u_0(x)+d(u_1-u_0)是跟d相關的。那麼一個很自然的想法就是找一個工具變數z。然而,著並沒有什麼卵用。為啥呢?因為工具變數要求跟d相關,而跟d相關的變數,都跟誤差項相關。。。。

所以這裡,為了使得以前的工具變數方法可以使用,我們必須做一個更強的假設,把d(u_1-u_0)給去掉,傳統的工具變數才能用。如果假設u_1=u_0,那麼問題解決了,我們可以使用之前的工具變數了。

不過,這裡工具變數該怎麼用是個很有意思的事情。最傳統的,我們可以使用2SLS的方法,也就是先拿d對x和z做回歸,得到hat{d}_1,然後用hat{d}_1替換d進行第二階段回歸(hat{d}_1的下表1代表第1階段回歸)。

不過觀察到d是一個0-1變數,更有效的方法是第一階段不用OLS,而是用諸如probit、logit的方法做,得到一個hat{d}然後用hat{d}作為d的工具變數。注意這裡是使用hat{d}作為工具變數,而並不是使用hat{d}替代d,這是有關鍵差別的。有什麼差別呢?忽略常數項和xhat{d}作為工具變數估計的實際上是:

frac{E[hat{d}y]}{E[hat{d}d]}=frac{E[hat{d}(dalpha+u)]}{E[hat{d}d]}=frac{alpha E[hat{d}d]+E[hat{d}u]}{E[hat{d}d]}=alpha

而如果直接回歸y on d,得到的結果是:

frac{E[hat{d}y]}{E[hat{d}^2]}=frac{E[hat{d}(dalpha+u)]}{E[hat{d}^2]}=frac{alpha E[hat{d}d]+E[hat{d}u]}{E[hat{d}^2]}=alphafrac{E[hat{d}d]}{E[hat{d}^2]}

顯然兩者是不相等的,後者低估了處理效應的magnitude。

此外,這裡一個關鍵點是,任何z的函數都可以作為工具變數,但是做出propensity score hat{d},繼而使用hat{d}作為工具變數可能又潛在的效率的提升。那麼LATE(local average treatment effects)呢?

在LATE里,我們有一個比較特殊的工具變數,簡單敘述起見,z也是一個0-1變數。有了工具變數,我們有兩種做法,第一種還是跟上面一樣,計算出z=0/1的propensity score E(d|z=1)E(d|z=0),工具可能是:zcdot P(d|z=1)+(1-z)P(d|z=0),這是上面的做法。還有一種做法,是直接使用z作為工具變數,也就是:

frac{cov(z,y)}{cov(z,d)}

我們來看分子,cov(z,y)=E(zcdot y)- E(z)cdot E(y)E(zcdot  y)=E(y|z=1)cdot P(z=1)E(z)cdot E(y)=P(z=1)cdot [E(y|z=1)cdot P(z=1)+E(y|z=0)cdot P(z=0)]

最終,cov(z,y)=(P-P^2)[E(y|z=1)-E(y|z=0)]

分子同理,最後得到:

frac{cov(z,y)}{cov(z,d)}=frac{E(y|z=1)-E(y|z=0)}{P(d|z=1)-P(d|z=0)}

也就是LATE的表達式。

為什麼使用LATE?熟悉LATE的都知道LATE之所以被稱之為「local」,是因為LATE有一個非常簡單的經濟學解釋:LATE度量的是,從z=0到z=1,會從d=0變到d=1的那些人的平均的處理效應。

有點繞,我們來舉個栗子。就像 @閆文收講的那個經典的例子。用離學校的距離做IV,一共有四類人:無論如何都會去上學的;無論如何都不去上學的;距離近就上學,距離遠就不上學的;距離近不上學,距離遠上學的。而LATE在這裡假設第四類人,也就是家和學校距離越遠越願意上學的,這個非常不符合直覺,假設不存在這類人。那麼LATE度量了第三類人,也就是因為家近才去上學的人的平均處理效應。

以上,從IV的角度看LATE,寫完了。其實LATE一般不是這樣講的,如果感興趣可以繼續看Angrist的書《mostly harmless econometrics》,或者Wooldridge的《cross sectional and panel data》也講的很不錯。


假設你想看當兵對以後工作收入的影響,但是這裡邊有內生性,所以你想找一個iv,影響當兵的選擇,但不直接影響收入。

你發現越南戰爭期間,美國用抽籤的方式決定誰去當兵,抽籤的標準是出生日期,如果你被抽中了,恭喜你,政府要求你去當兵,如果你沒被抽中,政府就不會強迫你去當兵。

由於抽籤是隨機的,所以並不直接影響收入,但抽籤確實影響了當兵與否,所以這是一個合適的工具變數。

但是抽籤只能解釋當兵行為的一部分。設想世界上有四種人:

1、堅定的愛國主義者:抽中了,自然義無反顧去當兵;抽不中,沒有條件創造條件也要上。

2、堅定的反戰主義者:抽不中,自然不去當兵;抽中了,寧可坐牢也不當兵。

3、普通人:抽中了,就去當兵;抽不中,就不去當兵。

4、瘋子:抽中了,寧可坐牢也不去當兵;抽不中,卻死也要去當兵。

這樣,抽籤對當兵與否的影響就是異質的,這種情況下我們iv的估計量就是LATE。

例如,考慮一個抽中了並且去當兵的人,這時候我們不知道他是普通人,還是堅定的愛國主義者,我們也就不知道假如沒抽中,他會選擇什麼;同樣,考慮一個抽不中並且沒去當兵的人,這時候我們也不知道他是普通人,還是堅定的反戰主義者,我也不知道假如抽中了,他會選什麼。

設當兵的收入是Y(1),不當兵的收入是Y(0),則沒抽中時,四個人的收入分別是:

1、y(1)

2、y(0)

3、y(0)

4、y(1)

抽中時,四個人的收入分別是:

1、y(1)

2、y(0)

3、y(1)

4、y(0)

也就是抽籤與是否被treat並不是一一對應的,具有異質性。這時候我們用抽籤的變化直接相減的話,我們發現對於1和2來說,直接被剪掉了。

那麼剩下的是我們感興趣的處理效應嗎?對於3來說,y(1)-y(0)確實是,但是對於4來說,它卻是y(0)-y(1)。如果我們求個平均的話,也就是以3和4的人數進行加權,我發現加權之後的這個數,即使3的平均處理效應確實是正的,這個數也可以是任何一個數,可以是正的,可以是負的,也可以是零。

我們做一個假設:不存在瘋子。

也就是對於一個正的激勵,人們總是在激勵後比激勵前更可能去做這個事兒。於是第四類人沒有了,我們相減得到的,就是第3類人的y(1)-y(0),這確實是我們感興趣的處理效應,但只是第3類人的處理效應,所以是LATE。


DingPeng: 因果推斷簡介之六:工具變數(instrumental variable)


此回答要求至少修過高級計量經濟學才看得懂,天坑慎入。

天坑挖掘中...

#1. Roy 模型和反事實觀測#

Roy 模型描述了這樣一個選擇機制,個體(agent)可以觀測到兩種結果,接受治療(D=1)的效果Y1和放棄治療(D=0)的效果Y0。

Y1 = b1X+e1

Y0 = b0X+e0

在一般化Roy模型中,b1和b0是不一樣的,更重要的是e1和e0是不一樣的,且不是獨立!假設你的選擇是否選擇輟學回家賣豬肉,影響學霸成就的隨機變數可能和影響商人成就隨機變數正相關(是否有毅力),也可能負相關(是否書獃子)。

然後你選擇治療時,還要付出一個成本,即

C=c1X+c2Z+eta

其中Z是僅出現在成本方程中,而不出現在結果方程中的排除限制(exclusion restriction),aka 工具變數(IV)。別問我為啥取這個名字,我也表示吐槽不能。

此處注意eta和e1,e0不同,並且可以有協方差。妖吧,不然怎麼符合Heckman不作死就不會死的風格。

個體然後做一個權衡

Y1-Y0-C &>0,則選擇治療

Y1-Y0-C

========半成品=======

要理解IV和LATE的關係,首先要理解所有的treatment effect都是marginal treatment effect的加權平均。在模型假設下,MTE只是propensity score的方程,IV通過改變propensity score的分布來改變權重,從而改變treatment effect。

LATE可以認為是某個propensity score子域上的加權平均。經典LATE權重為均勻分布。所以LATE可以看作是一種非常特殊的IV的結果。

這個觀點的重要推論是,當MTE不獨立於propensity score時,每個IV的treatment effect都不同。

這個系列參見Heckman, Urzua和Vytlacil 2006發表的undetstanding instrumental variables in models with essential heterogeneity.

讓題主去看most harmless economtrics 是一種誤導。Angrist和Imbens本質上是不信任IV的。因此對他們而言只有LATE,沒有IV。只有Heckman這樣的結構主義者才迷戀IV。

雖然是Heckman訓練出來的,但是我是越來越不相信IV了。放眼數據分析大千世界,只有經濟學家如此痴迷IV和unbiased estimator。這更像是個自己忽悠自己的邪教。


套用我導師(top b-school副院長,HansenHeckman的學生)在教我們Panel Data時說的話「LATE總比沒有好」


感覺反事實情況就跟薛定諤的貓一樣。。。。


mark


推薦閱讀:

經濟學(勞動、衛生等應用微觀計量領域)為什麼沒能廣泛應用人工神經網路演算法等機器學習的演算法?
k-means的k值該如何確定?
如何看待 Hamilton 對 HP filter 的批判?
對於單方程模型,使用工具變數進行識別是不是多此一舉?
怎麼在不減少變數下消除多重共線性?

TAG:計量經濟學 |