二択で迷ったらアグレッシブな方を選べ

本ブログのコンセプトは 「外科系臨床医に臨床研究について知ってもらう」です。自分で勉強したことを備忘録として気ままに書いていますので、情報の真偽については責任を負いかねます。また専門性が高い方にとっては内容が浅い点、分量が多くて読み辛い点もご了承くださいませ。

カテゴリ:臨床研究 > 臨床予測モデル

はじめて多施設を訪問してデータ収集した臨床予測モデル(CPM)研究の解析を進めています。CPM妥当性の記事でご紹介したとおり、予測モデルは開発したあと妥当性の検証が必須。全然関係ない集団で外的妥当性を検証するのがBestですが、それだけで1つの研究にしてもいいくらいタイヘン。実際のところは手元のサンプルを分けて内的妥当性を検証するSplit validationが手の届く範囲で最善でしょう。しかし本研究ではサンプルサイズが400前後と小さいため(それでも収集に100時間要しましたが涙)、Bootstrap Validationを試みることに。Split validationよりいいとの噂もあるし、できると大分解析の幅が広がるはず。下に貼り付けている「黄色い本」を勉強した内容を、備忘録も兼ねてちょっとまとめてみます。

Bootstrap varidationでは、Bootstrap法で仮想サンプルを作成し、そのサンプルを使ってモデルの開発と性能評価を繰り返し、要約し、最終的にOptimism-Corrected Performance(OCP)を算出します。その具体的な手順は

1.まずもとサンプル(S)を用いてCPMを開発し、開発したCPMのSにおける性能(Apparent performance: AP)を算出する。
2.Bootstrap法でBootstrap sample(BS)を作成する。
3.BSを用いて、1.と全く同じ方法で新たなCPM(BCPM)を開発する。BCPMのBSにおける性能(Bootstrap performance: BP)を算出する。
4.BCPMのSにおける性能(Test performance: TP)を算出する。
5.Optimism(O)=BP-TPを算出する。
6.1-4を十分(200回以上)繰り返し、Oの精確な要約値を算出する。
7.OCP=AP-Oを算出する。
 
のようです。OCPはOptimismを考慮した分、APよりずっと保守的で妥当な数値になると。これは頑張るしかありません。実は3まではもうSTATAでコード書けたのですが、4.が難しい…「STATAでもちゃんとできる」というハナシも耳にしたので、今からネット渉猟しつつ、試行錯誤してみます。こんなん解析の専門家がやってくれるなら無駄な時間使わなくていいのに…臨床医がしなきゃいけない日本の研究環境、どうかしてるぜ怒

CPM研究のバイブル「黄色い本」です。

先日臨床予測モデルの総説の記事で「別記事にします」と触れた内容をまとめます。臨床予測モデル(CPM)の研究はモデルの開発→性能評価→妥当性検証までがセットになっていて、総説内でも「どれだけ優れたCPMでも、妥当性が検証されていなければただの仮説」と指摘されるとおり、妥当性の検証(ホントに使えるか)は必須のようです。

 ①Apparent performance(みかけ上の性能)
 ~開発コホートにおける性能
〇追加ですることがない
✕ちょっと楽観的すぎる

 ②Split-sample validation
 ~データセットを開発と検証にわける
〇開発と異なる集団での検証 
✕開発に用いる数が減る
 大きなサンプルサイズが必要
 開発と検証の集団が似ている
   ←時期や場所で分けるとより良い

 ③Cross-validation
 ~データセットを例えば10に分割し、9を開発1を検証にまわす
  これを10回繰り返し結果を統合する
〇データを有効利用できる
 1回のみのSplit-sampleよりバイアス小
✕Caliblation含め正確に性能評価できない可能性

 ④Bootstrap validation
 ~データセットから複数の仮想データセットを作成
  各仮想データセットに基づいた性能を、実際の性能と比較
  比較を100単位で繰り返し、楽観性を是正した推定を行う
〇もっともバイアスが小さい推定
✕複雑で計算量が多い

【コメント】
一見②が一番気合入っていて、良い気がしていました。でもこの記事によると、④が一番よさそうとの論調。脳が足りない可能性は否めませんが、ちょっと頑張ってみますか。私が取り組んでいるCPMはサンプルサイズが400ほどなので、②はそもそも厳しいですし。日本語の教科書できないかなぁ...解析方法とか英語で読むの敷居が高すぎる…って、頑張ったら何とかできた!!あってるのかいささか不安ですが…

長らくヤルヤル詐欺をしていた臨床予測モデル(Clinical Prediction Model:CPM)研究をいい加減進めることに。黄色い本をシコシコ勉強しながら粗解析は(自分としては)イイ感じに完了。しかしその過程で開発/検証に色々なやり方があることを知り、完全に迷子に。そこでお手本論文を探すと、Critical Care Medicine(2018IF7.0)最新号にいい感じの総説が!相当都合よくまとめてみます。

Development and Reporting of Prediction Models: Guidance for Authors From Editors of Respiratory, Sleep, and Critical Care Journals

【はじめに】
臨床とは予測、CPMは臨床そのもの
怪しいCPMが多いので統計学とデータ科学を背景としたガイダンスです!
CPMは因果推論じゃなく、あくまで予測
良いCPMとは
 1)既知の変数で構成
 2)予測因子はアウトカム発生前
 3)別の集団でも精度が落ちない
CPMには2つの型(臨床判断用、ベンチマーク用)

【変数選択】
変数選択は変数の強さと同様に重要
変数増やすとより適合するが、一般化できない
変数はCPMを使う時点で利用できる情報のみ、取得が簡単な情報がよい
偏った集団で作ったCPMは一般化できない
変数選択は既存のエビデンスを参考に
 - 関連の強さだけで1変数を選ぶのは×
 - 変数どうしの関連性を考慮
ステップワイズ法には注意(P値だけに基づき、多重検定、過適合)
変数が多すぎるのも×
既存の情報じゃ足りないときpenalized法は〇
アウトカム少ないのに多くの変数扱うのは無謀

【変数の取り扱い】
連続値をカテゴライズ、線形の関連じゃないときとくに必要
情報喪失のリスクと使いやすさのトレードオフ

【アウトカム】
代理アウトカムに注意、どうアウトカムを定義したか詳述を
測定時点がとくに重要
予測因子とアウトカムには臨床的タイムラグが必要

【データの加工】
既存データでつくるCPMは欠測が問題、とくにMCARじゃない欠測は…
 - 除外する?→サンプルサイズ小+バイアス大
 - 多重代入がいいかも?
どう扱ったか詳述すべし
外れ値や分布が偏り過ぎたdataは除外(これも詳述)

【妥当性検証】
どうせoptimisticで一般化できない
 - 同様集団での内的検証、他集団での外的検証
他集団で性能が落ちないなら臨床的に有用!性能落ちたならその程度と理由は?
普通dataを分割して開発と検証に分けるが、分けない方法もある(別記事で)
とにかく関係ないdataで検証すること!じゃないと素晴らしいモデルでも単なる仮説

【性能評価】
性能評価には多くの方法がある
まずはdiscrimination(識別力)
 - でも1% vs 5%と5% vs 25%が同じ扱い
 - なのでcalibration(あてはまり)も重要
AUCに反映される感度/特異度はトレードオフ
 - ベンチマークにはいいかも
臨床利用が目的なら的中率
 - これは有病割合に左右されるので、他集団での解釈に注意

【性能の解釈】
モデル性能の解釈には比較が不可欠
 - 75%の性能でも、既存予測がコイン投げ程度なら有用
 - 80%の性能でも、既存予測が90%なら無用
診断前に治療が開始される場合、数字通り機能しない
ビッグデータが身近に→臨床的重要性と統計的重要性に注意

【報告のガイダンス】
データソース、対象者、アウトカム、予測因子、欠測、使用したモデルと構成、妥当性、性能を明示すべし(TRIPODを参照)、Electronic Health Recordsを使用する際はRECORD参照

【最後に】
多くのCPMは使用されない!
なぜ新規CPMが必要?
 - データが少ない疾患を予測?
 - 診療をかえる力がある?
 - 臨床試験での組み入れに役立つ?
 - 組織格差を明らかにする?
自分のCPMに何が足りない?
自分で使いたいか?
デザインの段階から論文化まで猛省せよ!

【コメント】
疲れた…母国語で読める英語圏の人ホント得だよなぁ…近日中に続編まとめなきゃ...データセット分けないvalidationと、TRIPODと…てかステップワイズダメなんかい…penalized法ってなんやねん…

お預かりしたデータセットから何か発信できないか?ということで、既存スコアリングシステムの妥当性検証を企画しています。相変わらず色々なことに首突っ込んで身動きとれませんが、少しずつでも前進し続けなければ…

スコアリングシステムを造るならまだしも、妥当性検証だけで論文書いていいものか?という一抹の不安はありますが、JBJSのエビデンス格付けでも「Testing of previously developed diagnostic criteria」がLevelⅠに格付けされていますし、チャンスはあるはず。というわけで分野に拘らず先行研究を渉猟してみると、Critical Care Medicine(2018IF6.9)の2019年12月号にお手本になりそうな論文が。

Validation of Early Warning Scores at Two Long-Term Acute Care Hospitals.

研究疑問  :急性期病院でのCPRは亜急性期病院でも使用できるか?
研究デザイン:過去起点コホート
セッティング:米亜急性期2病院(シカゴ70床、ヒンズデール90床)

P 2002年~2017年の12497入院
E 各CPR
C E以外のCPR
O 死亡もしくは急性期への転送(24<h)の予測性能
*MEWSはvital signから算出
*NEWS2はMEWSのUK改良版(重みづけの変更)
*eCARTはvital signに背景情報、血液検査値を加えて算出
*予測性能の尺度はAUC

急性期病院への救急搬送患者の予後を予測するスコアリングシステム(CPR)が複数存在し、エビデンスが蓄積されつつある。一方亜急性期病院に搬送される患者(慢性疾患の増悪など)の予後を予測するCPRはない。ので亜急性期病院で既存CPRが使用可能かを検証してみました!という研究。結果は

・急性期への転送は2544件 (20%)、死亡は1006件 (8%)
・検査値の予測能が高かった
・各アウトカムのAUCは
 - 死亡 + 転送:eCART 0.72、NEWS2 0.66、MEWS 0.65 
 - 死亡:eCART 0.83、NEWS2 0.75、MEWS 0.72
 - 転送:eCART 0.67、NEWS2 0.62、MEWS 0.62 

となり、亜急性期病院ではeCARTが最も性能が高いとの結論。

<考察のまとめ>
・血液検査値が強いのは急性期ではみられなかった傾向
・本研究(亜急性期)のeCART診断性能は急性期よりやや低かったが、遜色なし
 - 亜急性期での使用で予後を改善する可能性(追証が必要だが)
・Limitationは
 - セッティングが2つだけ
 - 精神状態の記述dataが殆どない
 - 集めたdataの測定誤差
 - 比較したCPRが3つだけ

【批判的吟味】★★★
CPRの診断性能の比較は何を指標にするのだろう?と思って読んだのですが、AUCだけで成立するのはちょっと意外でした。スクリーニングに使うのか、確定診断に使うのかでカットオフ値も性能もかわるけどそれでいいのかな…3群の比較も単純に3回検定するだけというのはシンプルでわかりやすいものの、ちょっとひっかかります。単位が「入院」なので同じ人を何回もカウントしているはずですが、考慮しなくていいのか?考察もサラッと短く、読みやすいのですが全体的にちょっと物足りない印象TRIPODに照らし合わせると

・対象者選択基準や方法の詳細がない
・アウトカムおよび他の変数測定の盲検化の記載がない
・サンプルサイズについての記載がない
・欠測やその取扱いについての記載がない
・各CPRの詳細やスコアリング手順の記載がない
・flow diagramがない
・AUC値の範囲(信頼区間)がない

と、結構ないない尽くしなので評価は星3つです。

【コメント】
基本的な型としては、「新しいCPRを既存のものと比較」すると良いようです。データセットお預かりしてからたてる研究だと、TRIPODを満たすのは難しそう…でもIF3くらいの雑誌なら目指せるか!?あと書くだけが3つ、解析中が3つ、on goingが3つ…でも投稿中は1つだけ…〇兎を追う者は〇兎も得ずにならないようにするには一体どうすれば…

このページのトップヘ