Bell et al.(2019)の要約
Bell, Andrew, Malcolm Fairbrother, and Kelvyn Jones. 2019. “Fixed and Random Effects Models: Making an Informed Choice.” Quality & Quantity 53(2):1051–74. doi: 10.1007/s11135-018-0802-x.
本論文の主張
REWB(Random Effect which allows for distinct Within and Between effect)はFEや従来のREよりもwithin効果とbetween効果を区別しているという点でより一般的な選択肢となる
モデルにランダムスロープを含めるかどうかは慎重に検討した方が良い
ハウスマン検定はFEとREのどちらを使うかを検定するためではなく、within効果とbetween効果が等しいかどうかを検定するために用いられるべき
要約
イントロダクション
パネル分析の方法に関して、「ランダム効果(RE)よりも固定効果(FE)の方が好ましい」という誤解が生まれている
本論文では様々な分野でのREとFEとの議論を統合することに加えて、REやFEよりも好ましいモデルとしてREWBを紹介する
within, between, contextual効果:モデルの固定パートの概念化
社会科学のデータはしばしば構造化されており、レベル1(時点)でのwithin効果とレベル2(個体)でのbetweenまたはcontextual効果が同じだと仮定してはいけない
「起こっていること」の全体を理解するためには、ミクロとマクロの両方のアソシエーションが必要
RE・FE・Mundlakモデル
最も一般的なパネルデータのモデル
\[ y_{it} = \mu + \beta_{1W}(x_{it} - \bar{x}_i) + \beta_{2B} \bar{x}_i + \beta_3 z_i + \nu_{i0} + \nu_{i1}(x_{it} - \bar{x}_i) + \epsilon_{ito} \hspace{4em}[1] \]
- Notation
- \(y_{it}\):従属変数
- \(x_{it}\):時変(Level1)の独立変数
- \(z_i\):時不変(Level2)の独立変数
- \(\beta_{1W}\):\(x_{it}\)の平均within効果
- \(\beta_{2B}\):\(x_{it}\)の平均between効果
- \(\beta_3\):\(z_i\)のbetween効果(Level3がなければwithin効果はLevel2には存在しないため)
- \(\nu_{i0}\):切片のランダム効果
- \(\nu_{i1}\):withinスロープのランダム効果
レベル2の効果を同質と仮定した簡単なモデル(REWBモデル)
\[ y_{it} = \beta_0 + \beta_{1W}(x_{it} - \bar{x}_i) + \beta_{2B}\bar{x}_i + \beta_3z_i+(\nu_i + \epsilon_{it}) \hspace{4em} [2] \]
式2のもう1つの定式化(Mundlakモデル)
\[ ⁍ \]
2つの違いは時変の変数\(x_{it}\)の元の値が統制されるかどうか
パネルデータにおいては文脈効果は無意味、なぜなら時点が個人から個人に移る、ということになってしまうから
したがって、between効果(REWBモデル)が好ましい
within-between REモデルの制約:固定効果、ランダム効果、OLS
within効果とbetween効果を区別しないランダム効果
\[ y_{it} = \beta_0 + \beta^{RE}_1x_{it} + \beta^{RE}_3z_i + (\nu_i + \epsilon_{it}) \hspace{4em} [4] \]
\(\beta_{1W} = \beta_{2B}\)と\(\beta_{2C} = 0\)という仮定が満たされれば良いモデルといえるが、この仮定が満たされなければREWBやMundlakを用いた方が良い
この仮定が満たされるかどうかはハウスマン検定によって明らかになる
※ハウスマン検定は実際にはwithin効果とbetween効果が異なるか、contextual効果があるかどうかの検定であり、FEとREどちらを使うかの検定というのは誤解
固定効果
\[ (y_{it} - \bar{y}_i) = \beta_1(x_{it} - \bar{x}_i) + (\epsilon_{it}) \hspace{4em} [6] \]
FEはレベル2の個体についてほとんど何も言えず、重要で有用な情報を捨てている
レベル2の個体の効果(between effect)に関心がない場合でも。REWBやMundlakモデルはwithin効果でFEと同程度のパフォーマンスを示し、かつbetween効果も推定できるため、より好ましい
単一レベルOLS回帰
\[ y_{it} = \beta_0 + \beta^{OLS}_1x_{it} + \beta^{OLS}_4z_i+ (\epsilon_{it}) \hspace{4em} [7] \]
データ内のすべての観察が条件付き独立という仮定で、モデルの構造を全て無視している
以下の2点で問題
- \(\beta^{OLS}_1\)推定値が潜在的に解釈できない
- もしレベル2の効果がある場合、過小推定してしまう
以上より、基本的にREWBがよく、within効果とbetween効果が同じときだけ効率性の点から、スタンダードなREが好ましい
REWBモデルにおける欠落変数バイアス
REWB/Mundlakモデルでも観察されないレベル1の時変の変数がバイアスを引き起こしたり、レベル2の計測されていない特性がバイアスを引き起こす
しかし、レベル2の変数は欠落変数そのものを含む、計測されていない社会的過程のプロキシとしてみなすことができる
e.g. エスニシティとYとの関連について。仮にエスニシティそのものが直接Yに与える遺伝的効果を見たいのであればREWBでもバイアスがあるといえるが、社会科学者はエスニシティに関連した社会的・文化的ファクターに関心があるはず
以上より、固定効果モデルと同様に、REWBモデルでは、レベル2の欠落変数によるレベル1の係数のバイアスを防ぐことができる
固定効果とランダム効果:モデルのランダム部分の概念化
REモデルは、モデル内の観察された予測変数が\(\nu\)(観察されない時不変の固定効果/ランダム効果)と相関しないと仮定しているのに対し、FEモデルはそれらが相関していることを認める
だが、この仮定はFEとREを分かつ唯一の仮定ではないし、モデルの決定的な特徴でもない
より重要な仮定の違いは、高いレベルの情報が交換可能かどうかという点、すなわちレベル2の個体が無関連なのか(FE)、それともレベル1と関連しているのか(RE)どうかという点にある
FEとREのいいとこ取りをしているという点で、REWBは「ハイブリッドモデル」と呼ばれることもある
REの枠組みでは、時不変の変数、縮小されたランダム効果、レベル3の効果(e.g. 地理的レベル)などの後半なリサーチクエスチョンに取り組むことができる
より複雑なモデル化:ランダムスロープモデルと3レベルモデル
ランダムスロープモデル
これまで\(x_{it}\)効果の同質性を仮定してきたが、これは問題含み
→モデルにランダムスロープを含めることで解決する
\[ y_{it} = \beta_0 + \beta_{1W}(x_{it} - \bar{x}_i) + \beta_{2B}\bar{x}_i + \beta_3z_i + \nu_{i0} + \nu_{i1}(x_{it} - \bar{x}_i) + \epsilon_{it} \hspace{4em} [10] \]
一般化REモデル:二値およびカウントの従属変数
identityリンク関数とは異なり、REWBモデルを用いたリンク関数の結果はFEの結果を特定するものではない
カテゴリカル変数を従属変数とするモデルでREWBを使うかFEを使うかは3つの要因に基づく
リンク関数
ほとんどのリンク関数では条件付き尤度推定量を有しておらず、within効果を得る上ではREWBが最も良い
リサーチクエスチョンの性質
レベル2以上の効果を提供できない、ランダムスロープを投入できないなどの理由で、つねにREWBが優れている
多少のバイアスを許容できるかどうか
ランダム効果モデルの仮定:どの程度重要か?
\(\nu\)や\(\epsilon\)は正規分布を仮定してきたが、それは必ずしも現実を反映した仮定ではない
→そもそも、この仮定が侵されるとどれくらいのバイアスが生じるのか?
線形モデルではさほどでもないが、非線型モデルでは大きなバイアスが生じていることが確認され、シミュレーションでも同様の結果が得られた
(ロジスティック回帰モデルでは下方バイアスが生じた)
結論:研究者は何をすべきか?
↑本論文の主張と同じ