先日読んだ論文での欠測の取り扱いが、「線形混合モデルなので不要」みたいに書いてあって理解できなかったので、ちょっとしんどいですが出所のJ Clin Epidemiol(2021IF7.4)の論文をみてみます。アムステルダム自由大学の疫学教室から2013年の報告。
Multiple imputation of missing values was not necessary before performing a longitudinal mixed-model analysis
【introの概要】
・多重補完などの欠測補完法が発展している
Multiple imputation of missing values was not necessary before performing a longitudinal mixed-model analysis
【introの概要】
・多重補完などの欠測補完法が発展している
・欠測パターンは2つ
- intermittent(一定期間だけ欠測)とdropout(以降すべて欠測)
・欠測メカニズムは3つ
- MCAR、MAR、MNAR(詳細は別記事で詳述)
・縦断研究では多重補完+mixed-modelが妥当(MCARかMARの場合)
- でも数学的理論と現実のギャップもあり、本当に必要かは不明
- なのでシミュレーションしてみます
【Methods】
・連続値アウトカムYを147人×6回測定した実在データを使用
- 時間非依存の2値Xdich/時間依存の連続値Xcontも含まれる
- 2-6の各測定で15、25、35、45、55人のデータを欠測に
- Yが欠測した場合Xも欠測
・メカニズム別に欠測させた4データセットを準備
- MCAR:完全にランダム
- MAR_1:各時点のXdich=1からランダム欠測
- MAR_2:1回前で測定されたYが最高者のデータを欠測
- MNAR:各時点でYが最高者のデータを欠測
・Data augmentation(反復マルコフ連鎖モンテカルロ法)で多重補完(MI)
- intermittentとdropoutを含む欠測補完の最新手法
- 別時点のYの情報も使用して補完
- 補完データセットは5と50
- STATAでmi
*MCMC自体がわからなかったのでこの記事参照
・Mixed-model(MM:multilevel-, random effects-ともいう)の特徴は
- 同一個人内の複数時点の相関を調整(モデル化)
- 縦断データの解析に適する
- 各個人の平均値が異なることを考慮するのがランダム切片
- 各個人で関連が異なることを考慮するのがランダムスロープ
- 固定効果(回帰係数)とランダム効果(その分散)を推定する
- STATAでxtmixed
・解析は2パターン
- Yと時間非依存のXdichの関連(RCTを想定)
- Yと時間依存のXcontの関連
【結果の概要】
・MCAR
- いずれも真の回帰係数に近く僅かに高い標準誤差
・MAR
- 各解析の値は概ね同じだが、真値とはやや異なる
- 標準誤差はXcontではばらばら
・MNAR
- 回帰係数はばらばらで、真値とも大きく異なる
- 標準誤差はXdich<真値、Xcont>真値で意味不明
【考察の抜粋】
・標準誤差はMM、MM+MIで異なり、真値より(とくにXcontで)やや高くなる
・回帰係数はMCARならMIがやや有利だが、他はそうでも
・MNARの場合どっちにしろダメ
・Xcontの標準誤差はMM+MI>MM
- MM+MIが過大評価?MMが過小評価?
- MM+MIは不要に複雑なモデルを用い、ノイズも持ち込む可能性
- MMは計算効率がよいし、計算も安定
- だからMI要らないでしょ
・研究外の欠測を説明するデータが使えればMIもいいかも
- でも縦断研究だったら一緒に欠測してる
なので、パネルデータ解析でMI追加しても明らかな利益はない。それよりも欠測データのメカニズムをできるだけ記述し、解釈の参考にできるようにすべき。
【コメント】
私なりの解釈ですが、「MMにMI加えても余計な計算が増えるだけ」だからパネルデータ解析においてはMMにMIは不要ってことでしょうか。わかったようなわかってないような…でもフツーの1回測定の解析と複数測定の解析で何が違うんでしょう。もともと何回も測定した結果を統合しているからhandled!?もっとモデルの原理的なところから理解しないとダメなんでしょうね。私の脳では無理ぽ…涙。てか「欠測データのメカニズムの記述」って重要なのはわかりますが、なかなかの無理難題。
- intermittent(一定期間だけ欠測)とdropout(以降すべて欠測)
・欠測メカニズムは3つ
- MCAR、MAR、MNAR(詳細は別記事で詳述)
・縦断研究では多重補完+mixed-modelが妥当(MCARかMARの場合)
- でも数学的理論と現実のギャップもあり、本当に必要かは不明
- なのでシミュレーションしてみます
【Methods】
・連続値アウトカムYを147人×6回測定した実在データを使用
- 時間非依存の2値Xdich/時間依存の連続値Xcontも含まれる
- 2-6の各測定で15、25、35、45、55人のデータを欠測に
- Yが欠測した場合Xも欠測
・メカニズム別に欠測させた4データセットを準備
- MCAR:完全にランダム
- MAR_1:各時点のXdich=1からランダム欠測
- MAR_2:1回前で測定されたYが最高者のデータを欠測
- MNAR:各時点でYが最高者のデータを欠測
・Data augmentation(反復マルコフ連鎖モンテカルロ法)で多重補完(MI)
- intermittentとdropoutを含む欠測補完の最新手法
- 別時点のYの情報も使用して補完
- 補完データセットは5と50
- STATAでmi
*MCMC自体がわからなかったのでこの記事参照
・Mixed-model(MM:multilevel-, random effects-ともいう)の特徴は
- 同一個人内の複数時点の相関を調整(モデル化)
- 縦断データの解析に適する
- 各個人の平均値が異なることを考慮するのがランダム切片
- 各個人で関連が異なることを考慮するのがランダムスロープ
- 固定効果(回帰係数)とランダム効果(その分散)を推定する
- STATAでxtmixed
・解析は2パターン
- Yと時間非依存のXdichの関連(RCTを想定)
- Yと時間依存のXcontの関連
【結果の概要】
・MCAR
- いずれも真の回帰係数に近く僅かに高い標準誤差
・MAR
- 各解析の値は概ね同じだが、真値とはやや異なる
- 標準誤差はXcontではばらばら
・MNAR
- 回帰係数はばらばらで、真値とも大きく異なる
- 標準誤差はXdich<真値、Xcont>真値で意味不明
【考察の抜粋】
・標準誤差はMM、MM+MIで異なり、真値より(とくにXcontで)やや高くなる
・回帰係数はMCARならMIがやや有利だが、他はそうでも
・MNARの場合どっちにしろダメ
・Xcontの標準誤差はMM+MI>MM
- MM+MIが過大評価?MMが過小評価?
- MM+MIは不要に複雑なモデルを用い、ノイズも持ち込む可能性
- MMは計算効率がよいし、計算も安定
- だからMI要らないでしょ
・研究外の欠測を説明するデータが使えればMIもいいかも
- でも縦断研究だったら一緒に欠測してる
なので、パネルデータ解析でMI追加しても明らかな利益はない。それよりも欠測データのメカニズムをできるだけ記述し、解釈の参考にできるようにすべき。
【コメント】
私なりの解釈ですが、「MMにMI加えても余計な計算が増えるだけ」だからパネルデータ解析においてはMMにMIは不要ってことでしょうか。わかったようなわかってないような…でもフツーの1回測定の解析と複数測定の解析で何が違うんでしょう。もともと何回も測定した結果を統合しているからhandled!?もっとモデルの原理的なところから理解しないとダメなんでしょうね。私の脳では無理ぽ…涙。てか「欠測データのメカニズムの記述」って重要なのはわかりますが、なかなかの無理難題。