先日臨床予測モデルの総説の記事で「別記事にします」と触れた内容をまとめます。臨床予測モデル(CPM)の研究はモデルの開発→性能評価→妥当性検証までがセットになっていて、総説内でも「どれだけ優れたCPMでも、妥当性が検証されていなければただの仮説」と指摘されるとおり、妥当性の検証(ホントに使えるか)は必須のようです。

 ①Apparent performance(みかけ上の性能)
 ~開発コホートにおける性能
〇追加ですることがない
✕ちょっと楽観的すぎる

 ②Split-sample validation
 ~データセットを開発と検証にわける
〇開発と異なる集団での検証 
✕開発に用いる数が減る
 大きなサンプルサイズが必要
 開発と検証の集団が似ている
   ←時期や場所で分けるとより良い

 ③Cross-validation
 ~データセットを例えば10に分割し、9を開発1を検証にまわす
  これを10回繰り返し結果を統合する
〇データを有効利用できる
 1回のみのSplit-sampleよりバイアス小
✕Caliblation含め正確に性能評価できない可能性

 ④Bootstrap validation
 ~データセットから複数の仮想データセットを作成
  各仮想データセットに基づいた性能を、実際の性能と比較
  比較を100単位で繰り返し、楽観性を是正した推定を行う
〇もっともバイアスが小さい推定
✕複雑で計算量が多い

【コメント】
一見②が一番気合入っていて、良い気がしていました。でもこの記事によると、④が一番よさそうとの論調。脳が足りない可能性は否めませんが、ちょっと頑張ってみますか。私が取り組んでいるCPMはサンプルサイズが400ほどなので、②はそもそも厳しいですし。日本語の教科書できないかなぁ...解析方法とか英語で読むの敷居が高すぎる…って、頑張ったら何とかできた!!あってるのかいささか不安ですが…