二択で迷ったらアグレッシブな方を選べ

本ブログのコンセプトは 「外科系臨床医に臨床研究について知ってもらう」です。自分で勉強したことを備忘録として気ままに書いていますので、情報の真偽については責任を負いかねます。また専門性が高い方にとっては内容が浅い点、分量が多くて読み辛い点もご了承くださいませ。

カテゴリ:臨床研究 > ピットフォール

ふつう臨床医が臨床研究をしようとしたら、その是非はさておき、独学で四苦八苦しながら以下のような成長過程をとるのではないでしょうか?私はそうでした。

 1. 症例報告
 2. カイ二乗検定、Mann-WhitneyのU検定、Studentのt検定 
 3. ちょっと凝った検定
 4. 多変量解析(ロジスティック回帰)

実はそこから先が果てしないのですが涙、とりあえず4.までたどり着いたときにまずぶつかる壁が「どの変数をモデルに組み込むか」もしくは「結果をどう解釈したらいいか」なんじゃないかなと思います(私はそうでした)。その答えはケースバイケースなので簡単には答えられませんが、大切なのはその多変量解析の目的は何か?じゃないかなと思います。具体的にいうと、探索したいのか?検証したいのか?ということです。

【探索的研究】
ある有害アウトカムOを減らしたい!と一念発起したとします。するとまず最初に考えるのが、どの要因EがOを引き起こしているか?です。Eがわかれば、EをどうにかすればOが減らせそうですから。その際にどうやってEを探すかというと

 1)既存のエビデンスからもってくる
 2)専門家で合議する
 3)自分で探す

になります。2)は文献の網羅的検索を行い、質の評価をし、E候補を選抜すると。でも悲しいかなまず足りないので、1)で臨床経験豊富な人たちが集まって合議する。それで結論が出たらそれでOKなのですが、それでも足りなければ3)するしかない。これが即ち探索的研究で、多変量解析でE候補を選抜するのです。多変量解析では、E候補どうしのかかわりも考慮したうえで(ここが単変量解析との決定的な差)、各E候補とOとの関連の強さが数字で出ます。そこで強そうな因子を選抜し、Eを探索するわけです。この場合多変量解析に投入する変数は、1)2)である程度選抜したE候補になります。そして、得られた結果からは強いことは言えず、EはOと関連する(かもしれないけどまだわからない)といったニュアンスになるでしょう。

【検証的研究】
Eがみつかったら、次は本当にOと関連があるかの検証にうつります。検証とは、考え得る交絡因子の影響を除外する作業で、すなわち交絡の調整が目的になります。ここでも多変量解析が活躍します。この場合多変量解析に投入する変数は交絡因子候補になり、やはり上記1)2)をやって、更には因果グラフを描いたりして決めます。あくまでEとOの関連を歪める因子を探すわけで、探索的研究におけるE候補と全く同じにはなり得ません。結局交絡を調整しつくすことはできないので、結局強いことは言えないものの、EとOは関連する(かもしれない)くらいのことは言えるでしょう。

【まとめ】
いきなりこんなこと独学で考える猛者はなかなかいないと思います。が、研究に芯を入れるためには大切なこと。こういった研究の土台となるような考え方が独学じゃなく、無理ない範囲で学べる機会が増えないと、真の意味でEBMは発展しないでしょう。どうしたら普及するんだろう…その前にもっと自分の実力つけなきゃただのオオカミ少年!?

よくメンター先生方から「これって関係みれてないでしょ?関連でしょ?」といった旨ご指摘を受け、関係と関連の違いそんなに大事?とチンプンカンプンだったことがありました。実はその研究の根幹に関わる重要な違い…と思うようになったのはつい最近。あくまで現時点での私的な認識ですが、整理しておきます。

【関係と関連のちがい】

 「関係」とは「因果関係」Causal relationship
 「関連」とはAssociation、何なら「相関」Correlation

を指します。「因果関係」とは、AによってBが生じる、すなわちAが原因でBが結果であることを指します。一方、「関連」はAとBには関連があるけれども、Aが原因でBが結果なのか、それともBが原因でAが結果なのかわかりません。言い方をかえると、AとB因果関係があるためには関連は必要(関連は因果関係の必要条件)ですが、関連があるからといって因果関係があるかはわかりません(関連は因果関係の十分条件ではない)。

【因果関係を示すには】
因果関係を示すのは非常に難しく、

 1.AとBに関連がある
 2.Aが先でBが後(時間的順序がある)
 3.交絡因子の影響がすべて除外できる

ことが必要です。とくに臨床研究で3.を証明するのはほぼ不可能。よくデザインされたRCTであれば、同じようなRCTをひたすら繰り返した平均としては理論上3.が言えますが、それ以外では不可能です。そのため、因果推論 causal inferenceという学問があって、偉い先生方ができるだけ因果関係に迫るために日々頭を悩ませていると。私のような駆け出しの疫学者もどきには遠い世界…(避けることはできませんが)

【関連性を示すには】
ちなみに関連性を検証するのもそう簡単ではなく、交絡因子の影響を考慮することが必須です。さもなくば、AとBに関連がありそうにみえても、AもBも実は結果で、共通の原因Cによって見せかけの関連が示されているだけの可能性があります。何でもかんでも変数をモデルに入れて、強い因子を選抜する探索的研究では関連性について強いことは言えません。

【まとめ】
関係>>関連であり、臨床研究(とくに観察研究)で「AとBの関係が示された」とか「AによってBが生じることがわかった」と結論するのは避けた方が無難です。また、探索的な研究(とくに交絡を全く考慮しない単変量解析)で「AとBに関連がある」と断定するのも✕。せいぜい「…かもしれない」とお茶を濁すのが妥当でしょう。勉強するほどつらい現実に直面する、ドMな世界…
 

先日臨床予測モデルの総説の記事で「別記事にします」と触れた内容をまとめます。臨床予測モデル(CPM)の研究はモデルの開発→性能評価→妥当性検証までがセットになっていて、総説内でも「どれだけ優れたCPMでも、妥当性が検証されていなければただの仮説」と指摘されるとおり、妥当性の検証(ホントに使えるか)は必須のようです。

 ①Apparent performance(みかけ上の性能)
 ~開発コホートにおける性能
〇追加ですることがない
✕ちょっと楽観的すぎる

 ②Split-sample validation
 ~データセットを開発と検証にわける
〇開発と異なる集団での検証 
✕開発に用いる数が減る
 大きなサンプルサイズが必要
 開発と検証の集団が似ている
   ←時期や場所で分けるとより良い

 ③Cross-validation
 ~データセットを例えば10に分割し、9を開発1を検証にまわす
  これを10回繰り返し結果を統合する
〇データを有効利用できる
 1回のみのSplit-sampleよりバイアス小
✕Caliblation含め正確に性能評価できない可能性

 ④Bootstrap validation
 ~データセットから複数の仮想データセットを作成
  各仮想データセットに基づいた性能を、実際の性能と比較
  比較を100単位で繰り返し、楽観性を是正した推定を行う
〇もっともバイアスが小さい推定
✕複雑で計算量が多い

【コメント】
一見②が一番気合入っていて、良い気がしていました。でもこの記事によると、④が一番よさそうとの論調。脳が足りない可能性は否めませんが、ちょっと頑張ってみますか。私が取り組んでいるCPMはサンプルサイズが400ほどなので、②はそもそも厳しいですし。日本語の教科書できないかなぁ...解析方法とか英語で読むの敷居が高すぎる…って、頑張ったら何とかできた!!あってるのかいささか不安ですが…

長らくヤルヤル詐欺をしていた臨床予測モデル(Clinical Prediction Model:CPM)研究をいい加減進めることに。黄色い本をシコシコ勉強しながら粗解析は(自分としては)イイ感じに完了。しかしその過程で開発/検証に色々なやり方があることを知り、完全に迷子に。そこでお手本論文を探すと、Critical Care Medicine(2018IF7.0)最新号にいい感じの総説が!相当都合よくまとめてみます。

Development and Reporting of Prediction Models: Guidance for Authors From Editors of Respiratory, Sleep, and Critical Care Journals

【はじめに】
臨床とは予測、CPMは臨床そのもの
怪しいCPMが多いので統計学とデータ科学を背景としたガイダンスです!
CPMは因果推論じゃなく、あくまで予測
良いCPMとは
 1)既知の変数で構成
 2)予測因子はアウトカム発生前
 3)別の集団でも精度が落ちない
CPMには2つの型(臨床判断用、ベンチマーク用)

【変数選択】
変数選択は変数の強さと同様に重要
変数増やすとより適合するが、一般化できない
変数はCPMを使う時点で利用できる情報のみ、取得が簡単な情報がよい
偏った集団で作ったCPMは一般化できない
変数選択は既存のエビデンスを参考に
 - 関連の強さだけで1変数を選ぶのは×
 - 変数どうしの関連性を考慮
ステップワイズ法には注意(P値だけに基づき、多重検定、過適合)
変数が多すぎるのも×
既存の情報じゃ足りないときpenalized法は〇
アウトカム少ないのに多くの変数扱うのは無謀

【変数の取り扱い】
連続値をカテゴライズ、線形の関連じゃないときとくに必要
情報喪失のリスクと使いやすさのトレードオフ

【アウトカム】
代理アウトカムに注意、どうアウトカムを定義したか詳述を
測定時点がとくに重要
予測因子とアウトカムには臨床的タイムラグが必要

【データの加工】
既存データでつくるCPMは欠測が問題、とくにMCARじゃない欠測は…
 - 除外する?→サンプルサイズ小+バイアス大
 - 多重代入がいいかも?
どう扱ったか詳述すべし
外れ値や分布が偏り過ぎたdataは除外(これも詳述)

【妥当性検証】
どうせoptimisticで一般化できない
 - 同様集団での内的検証、他集団での外的検証
他集団で性能が落ちないなら臨床的に有用!性能落ちたならその程度と理由は?
普通dataを分割して開発と検証に分けるが、分けない方法もある(別記事で)
とにかく関係ないdataで検証すること!じゃないと素晴らしいモデルでも単なる仮説

【性能評価】
性能評価には多くの方法がある
まずはdiscrimination(識別力)
 - でも1% vs 5%と5% vs 25%が同じ扱い
 - なのでcalibration(あてはまり)も重要
AUCに反映される感度/特異度はトレードオフ
 - ベンチマークにはいいかも
臨床利用が目的なら的中率
 - これは有病割合に左右されるので、他集団での解釈に注意

【性能の解釈】
モデル性能の解釈には比較が不可欠
 - 75%の性能でも、既存予測がコイン投げ程度なら有用
 - 80%の性能でも、既存予測が90%なら無用
診断前に治療が開始される場合、数字通り機能しない
ビッグデータが身近に→臨床的重要性と統計的重要性に注意

【報告のガイダンス】
データソース、対象者、アウトカム、予測因子、欠測、使用したモデルと構成、妥当性、性能を明示すべし(TRIPODを参照)、Electronic Health Recordsを使用する際はRECORD参照

【最後に】
多くのCPMは使用されない!
なぜ新規CPMが必要?
 - データが少ない疾患を予測?
 - 診療をかえる力がある?
 - 臨床試験での組み入れに役立つ?
 - 組織格差を明らかにする?
自分のCPMに何が足りない?
自分で使いたいか?
デザインの段階から論文化まで猛省せよ!

【コメント】
疲れた…母国語で読める英語圏の人ホント得だよなぁ…近日中に続編まとめなきゃ...データセット分けないvalidationと、TRIPODと…てかステップワイズダメなんかい…penalized法ってなんやねん…

お手伝いしている雑誌で、観察研究を含めるSystematic review (SR)を査読をする機会があります。その度に、疫学を学んで一番ショックだった「観察研究は信頼できない」という事実を思い出します。

【観察研究の定義】
観察研究とは、既存のdataを観察して行う研究で、介入試験(≒RCT)以外の臨床研究すべてを指します。症例報告、カルテレビュー研究やコホート研究などはすべて観察研究です。

【なぜ観察研究は信頼できないか】
ある介入/要因があるA群と、ないB群のアウトカムを比較する研究を想定します。RCTでは(理論的には)A群もB群も似たような集団になります。しかし、観察研究ではA群とB群は必ず異なった集団になります。言い換えると、A群とB群には介入/要因の有無以外の特徴の差が生じ、その特徴の差が交絡して結果をゆがめます。なので、多変量解析などで特徴の差の影響を減らす必要がある。しかし、測定していない交絡(未測定交絡)や、測定しきれていない交絡(残余交絡)が必ず存在します。なので観察研究の結果は疑ってかからなければなりません。

【とくに信頼できない観察研究】
それは「介入の効果をみる」観察研究、すなわち、介入の有無(どちらの群に割付するか)を研究者が判断している研究です。その判断は臨床的理由かもしれませんし、結果をよくみせよう!と恣意的にしているかもしれません。後者が問題なのはもとより、前者も問題で、これを「適応交絡」といいます。

例えば、骨折患者に手術するかどうか?を決める際には、いろいろな情報を引っ張り出して、総合的にこの人には手術した方がいいな!と思えば手術を勧めるし、なしでしょ!と思えば勧めない。すると、手術する集団としない集団は、適応判断に必要な情報が大きく異なる集団になります。この集団の差が結果に及ぼす影響は、利用できるデータを駆使してもなくすことはできません。

なので、「介入の効果をみる」研究は(質が高い)RCT一択です。とはいっても、倫理的にもRCTが非現実的なことが多い。でも、だから観察研究でOK!というわけではなく、観察研究で仕方ないというだけです。結果は信頼できないことを念頭に慎重に解釈しなければなりません。

【それでも観察研究じゃないとだめな場合】
それは「リスク因子の影響をみる」研究です。なぜなら、リスク因子の有無はランダム割付できないからです。糖尿病があると心筋梗塞になりやすいか?パーキンソン病があると転倒しやすいか?などの臨床疑問は、RCTできないので観察研究で解決するしかない。ただ、あくまで結果は信頼できないことから始まって、どれだけ良いデザインになっているか?を考慮して慎重に解釈しなければなりません。

【まとめ】
長くなったので無理やりまとめますと、
 ・介入の効果をみる研究するなら必死になる
 ・RCTを頑張る
 ・観察研究してもだめじゃないけど…
  - 検定だけは×
  - 少なくとも交絡調整して、結果も控えめに
 ・RCTあるなら同じ疑問の観察研究はしない
 ・介入の効果をみるSRに観察研究は含めない
 ・リスク因子の影響をみるSRの対象は観察研究

という感じでしょうか。学べば学ぶほど、途方に暮れる毎日ですが、でも事実なんだから仕方ない。医学の進歩に少しでも貢献しようと思うと、避けては通れない事実です。

このページのトップヘ