予測モデルを開発するうえでキモとなるのが「どのリスク因子をモデルに含めるか」かと思います。臨床的感覚、統計学的な選抜…Steyerberg先生の黄色い本ではどう取り扱うのでしょうか。

 10 Restrictions on Candidate Predictors

の記載で目に留まったところを(自分の解釈で)まとめておきます。自分があとで見直すための記事なので、不親切な点はご容赦を…

【まずはじめに】
・サンプルサイズが小で多くの予測因子を使うとoverfittingが大問題
 - ある程度予測因子を選抜せざるを得ない
・57因子を231例(58アウトカム)のデータで解析した例がある
 - 単変量解析とStepwiseで因子選抜し、性能〇
 - でも外的妥当性検証したら散々
 - シュミレーションで内的妥当性検証してもやっぱり✕
・数理モデルの観点からは、モデルに含める予測因子は事前指定が理想
 - 手元にあるデータでの予測因子-アウトカムの関係をみる前に

【事前選抜】
・既存のエビデンスをもとに選抜
 - 文献レビューや専門家の意見を参考に
 - 何ならガチのSRしてもいい
 - 5-20の予測因子候補が妥当
・その後、欠測と分布を評価すべし
 - 欠測や分布の幅が狭い場合は除外を検討
・2%しか発生していないけどオッズ比11の変数はどうする?
 ①ねじ込む ←これがデフォルト
 ②変数を除外して、その旨宣言する
 ➂発生者を除外して、未発生の者のみに使えるモデルとする
・可能なら5-10の予測因子に選抜して、そのまま最終モデルにしたい

【変数の統合】
・似た変数をまとめる
 - 複数の症状のいずれかがある者を「動脈硬化あり」
 - 並存症の数でカテゴライズ
 - 変に重みづけするより単純和のほうが頑健かも
・Harrellはprincipal component analysisを提唱

【変数の平均化】
・需要な変数は層化すべき?
 - 性感染症における男女、手術成績における待機/緊急手術...
・交互作用がなければ、合わせて平均化するのも手
 - 純粋にサンプルサイズが増えて精度が増す

【コメント】
変数選抜について、事前定義についてまとめました。このまま統計学的選抜にいきたかったのですが、分量が多くなったので一区切り。HarrellのPCAについてはもと論文読まないとですかね…