臨床復帰して4本目、次は臨床予測モデル(CPM)の執筆にとりかかります。まずはお手本論文!を探してみつかったCPMのサンプルサイズ(SS)設計についてのBMJ(2020)の総説をまとめます。BMJはほんとためになります...と思って読んだけど、難しすぎて後悔…かなりの意訳なので、ズレてたらホントすいません。
Calculating the sample size required for developing a clinical prediction model
【まずはじめに】
・CPM開発に必要なSSはわかっていない
- 様々な経験則で議論されてきた
・本論文では、方法論に基づいた計算法を紹介する
Step 4 Optimismも考慮
Sも計算し、Step3の式に入れる
*許容できる誤差範囲 ≤0.05 を推奨
S = R2cs / (R2cs + 誤差範囲max[R2cs])
ちなみに、pmsampsizeパッケージをダウンロードすればSTATAでStep2以外はパっと計算できてしまいます。Step2は本文中で紹介されたリンクで計算できます。理論は完全にはわかんなくても数字は出せちゃいました。
【コメント】
これ真面目に計算したら、必要SSは相当高くなりそう…このSS満たさないと査読しないよ!という流れになってくるのでしょうか?CPM研究相当淘汰されるなぁ。ソフトにぶち込んだら何となく結果が出るし、CPM研究はちょっとかじった(私のような)臨床研究者が飛びつくため、相当数が世に出ています(私も3研究施行中)。でもその殆どは使われない(使えない)ため、ゴ〇としてEBMの海を漂流しています。この現状を打破するために、真の臨床研究者たちは気を揉んでいるんでしょう。能力的にも、やりたいこと的にも私は真の研究者にはなれませんが、新しい(正しい)ルールに遅れないよう、情報をup dateし続けなきゃ。それだけでも気が遠くなる…大学院終わったらどうしよう…
Calculating the sample size required for developing a clinical prediction model
【まずはじめに】
・CPM開発に必要なSSはわかっていない
- 様々な経験則で議論されてきた
・本論文では、方法論に基づいた計算法を紹介する
【使用変数×10イベント」ルールからの脱却】
・従来2値CPMの必要SSは使用変数×10イベント
- でもカテゴリ変数や交互作用項がありもっと必要
- ちなみに使用変数は最終モデルだけじゃなく全て
・×10ルールが提唱されたのは1990年代
- わかりやすいので普及した
- 10で足りるか足りないか未だ議論がある
【精確な予測かつover fittingを最小限にするSS計算】
van SmedenとRikeyが提唱した4つの計算法を紹介
- 4つ全て計算して、最大のSSが必要SS
Step 1 アウトカムを精確に予測するために必要なSS
変数を含まないヌルモデル(切片)の精確な予測に必要なSS(n)
*許容できる誤差範囲、アウトカム発生割合の指定が必要
n= (1.96 / 誤差範囲)2 × 発生割合 × (1 - 発生割合)
Step 2 変数の数も考慮
MAPE:Mean Absolute Prediction Error
*MAPEと、変数の数と、アウトカム発生割合の指定が必要
- MAPEは0.05より小さい数を指定すべし
n = exp ([-0.508 + 0.259ln(発生割合) + 0.504ln(変数の数) - ln(MAPE)] / 0.544)
Step 3 Shrinkageも考慮
Cox-Snell R二乗統計量:R2cs
- 高値(1に近い)であれば多くの変数を組み込むことができる?
S:expected uniform shrinkage factor
*例ではR2cs = 0.1を指定
- 指定根拠は本文中のFig. 4に(難しすぎるので割愛)
*Sは ≥0.9 を推奨
n = 変数の数/ (S -1)ln(1 - R2cs/S)- でもカテゴリ変数や交互作用項がありもっと必要
- ちなみに使用変数は最終モデルだけじゃなく全て
・×10ルールが提唱されたのは1990年代
- わかりやすいので普及した
- 10で足りるか足りないか未だ議論がある
【精確な予測かつover fittingを最小限にするSS計算】
van SmedenとRikeyが提唱した4つの計算法を紹介
- 4つ全て計算して、最大のSSが必要SS
Step 1 アウトカムを精確に予測するために必要なSS
変数を含まないヌルモデル(切片)の精確な予測に必要なSS(n)
*許容できる誤差範囲、アウトカム発生割合の指定が必要
n= (1.96 / 誤差範囲)2 × 発生割合 × (1 - 発生割合)
Step 2 変数の数も考慮
MAPE:Mean Absolute Prediction Error
*MAPEと、変数の数と、アウトカム発生割合の指定が必要
- MAPEは0.05より小さい数を指定すべし
n = exp ([-0.508 + 0.259ln(発生割合) + 0.504ln(変数の数) - ln(MAPE)] / 0.544)
Step 3 Shrinkageも考慮
Cox-Snell R二乗統計量:R2cs
- 高値(1に近い)であれば多くの変数を組み込むことができる?
S:expected uniform shrinkage factor
*例ではR2cs = 0.1を指定
- 指定根拠は本文中のFig. 4に(難しすぎるので割愛)
*Sは ≥0.9 を推奨
Step 4 Optimismも考慮
Sも計算し、Step3の式に入れる
*許容できる誤差範囲 ≤0.05 を推奨
S = R2cs / (R2cs + 誤差範囲max[R2cs])
ちなみに、pmsampsizeパッケージをダウンロードすればSTATAでStep2以外はパっと計算できてしまいます。Step2は本文中で紹介されたリンクで計算できます。理論は完全にはわかんなくても数字は出せちゃいました。
【コメント】
これ真面目に計算したら、必要SSは相当高くなりそう…このSS満たさないと査読しないよ!という流れになってくるのでしょうか?CPM研究相当淘汰されるなぁ。ソフトにぶち込んだら何となく結果が出るし、CPM研究はちょっとかじった(私のような)臨床研究者が飛びつくため、相当数が世に出ています(私も3研究施行中)。でもその殆どは使われない(使えない)ため、ゴ〇としてEBMの海を漂流しています。この現状を打破するために、真の臨床研究者たちは気を揉んでいるんでしょう。能力的にも、やりたいこと的にも私は真の研究者にはなれませんが、新しい(正しい)ルールに遅れないよう、情報をup dateし続けなきゃ。それだけでも気が遠くなる…大学院終わったらどうしよう…