予測モデルを開発するうえでキモとなるのが「どのリスク因子をモデルに含めるか」かと思います。Steyerberg先生の黄色い本ではどう取り扱うのでしょうか。というわけで、ようやく統計学的変数選抜…

 11.1 Predictor Selection

の記載で目に留まったところを(自分の解釈で)まとめておきます。自分があとで見直すための記事なので、不親切な点はご容赦を…

【変数選抜の動機】
・モデリングの前に10以上の因子が残ってしまうことがしばしば
 - 欠測が増えたり費用面で実用性がなくなってしまう
 - 効果が小さい変数や、怪しげな変数を含むとモデルがおかしくなる
・ 共線性も問題
 - VIF>10や相関係数>0.8だと回帰係数が怪しくなる
 - 例えば収縮期血圧と拡張期血圧
 - 平均をとるのも手
 - ただ、収縮期血圧がより臨床的に重要であることに注意
・簡単なモデルほど受け入れられる
 - でもその回帰係数は信頼できる?
・「統計学的有意」じゃない変数は除外すべき?
 - 意味不明

【最も普及しているStepwise Selection】
・変数を足していくForwardと、減らしていくBackward(の組み合わせも)
 - 全てのモデルで最もfitするものを選択する方法も
 - 簡単にoverfit
・そんなことより重要なのは選択基準
 - p<0.05?AIC?BIC?
 - AICが推奨
 - p<0.2やp<0.5も選択肢
 - サンプルサイズ小だと、基準厳しいと変数減り過ぎる
・Stepwiseの利点は
 - 簡単に使える(欠測あれば選抜の度に多重補完すべし)
 - 主観が入りにくい(bootstrap法などで妥当性が検証できる)
 - 変数が大分減らせる(ノイズ変数をちゃんと落とせるかは微妙)
・Stepwiseの欠点は
 - 選抜が不安定(安定させるには1変数につき25-50のアウトカムが欲しい)
 - 回帰係数にバイアスが入る
 - 多様性の誤判定?とp値の誇張(Stepwise後のp値は解釈しては×)
 - フルモデルより予測能が落ちる

【事前に単変量解析で落とす】
・単変量解析でp < 0.2なら多変量モデルには入れなくていいかも
 - でもStepwiseの変形に過ぎない
 - Overfitの問題は解決できない

*モダンな変数選択(bootstrap、ベイズ、LASSO)はキャパオーバーにつき割愛
 - BMJとかじゃなく、臨床系専門誌ならTop journalでもここまでは不要なので…

【コメント】
うーんやっぱり結局これだ!という正解はないようですね。てかここ昔読んだな…結局どんな方法で作っても、外的妥当性検証がキモで、そこでいい性能出せるモデルになるかどうか?ということでしょう。とりあえずは内的検証が許してもらえるみたいだし、Stepwise頼みのスタイルが基本になっちゃいますね。てかアウトカム30でp<0.05のStepwiseとか、overfitの塊で実用性皆無…の予測モデルもどきが如何に多いことか。かく言う私もアウトカム50ちょっとでStepwiseしてるんで人のこと言えないですが涙