二択で迷ったらアグレッシブな方を選べ

本ブログのコンセプトは 「外科系臨床医に臨床研究について知ってもらう」です。自分で勉強したことを備忘録として気ままに書いていますので、情報の真偽については責任を負いかねます。また専門性が高い方にとっては内容が浅い点、分量が多くて読み辛い点もご了承くださいませ。

カテゴリ:ひとり抄読会 > 総説

臨床予測モデル(CPM)についての知見を深めていきます。おそらく実際のところ、問題はサンプルサイズ(アウトカム数)が少ないのに、予測因子候補が多すぎることに集約されるのではないでしょうか?とりあえず数字が出るので、何でもかんでもStepwiseに放り込んで、α=0.05をカットオフにして、強引に数個の因子に選抜してAUC0.8だ!みたいな論文がとても多いです。でもoverfitの塊で実用性ゼロ、ということがわかっている人は(査読者ふくめて)かなり少数派なのが現実…

というわけで、解析で少しはマトモなことはできないかな?と困ったときのBMJ様のResearch Methods & Reportingを渉猟し、めぼしいものを読んでみます。Penalised regressionのお話。自分の興味があるところを自分の都合のいいようにまとめている点はご容赦を。

How to develop a more accurate risk prediction model when there are few events

【はじめに】
・少ないイベントで開発されたCPMは、だいたい外的検証でこける
 - 開発集団に含まれたノイズがモデルに反映される
 - Overfittingの問題
 - 予測確率が低い人を過小評価、高い人を過大評価する
 - のでdecision makingに悪影響
・本記事ではridgeとlassoについて解説します
 - TRIPODでも推奨されてるよ

【サンプルサイズの問題】
・経験的に、イベント数/予測因子数(EPV)≥ 10が必要とされる
 - 変数選抜する際は、選抜前の因子数で計算すること
・CPM作るときはまず文献レビューと専門家の意見
 - 普通EPV ≥10はムリ
・なので、単変量解析の一次選抜か、Stepwise選抜が用いられる
 - いずれにしろ、変数選抜が不安定であることが大問題
 - ちょっとデータがかわっただけで選抜される変数がかわる

【Shrinkage methods】
・通常の回帰では係数に制限はない
 - ので、イベント少ないと回帰係数の幅が大きくなる
 -  結果としてoverfittingをもたらす
・Shrinkage methodsはoverfitingの問題を緩和する可能性がある
 - 回帰係数を0に向かって縮小する
・一番シンプルなのは、標準回帰で推定後に共通の値で縮小する
 - 例えば20%(bootstrappingで決めれる)
 - でもEPVが小さすぎるとうまくいかない
 - ので本記事ではこれ以上触れません

【Penalised regression】
・Penalised regressionはEPV < 10でも効果的
・Penalised regressionは以下の手順を行う
 - まずモデルを決める(logistic、Cox回帰など)
 - データから回帰係数を算出する
 - その際に回帰係数に制限を設ける
・Penalised regressionにはいくつかの方法がある
 - 本記事ではridgeとlassoを紹介する
 - どちらもRやSPSSで使える(STATAは!?)

<Ridge regression>
・回帰係数の二乗和が閾値を超えないという制限を設ける
・閾値はcross valodationで算出する
 - データセットをk群に分割する
 - (k-1)群でモデルを開発し、除外した1群で検証する
 - 除外群を毎回かえて、k回試行する
・通常lassoよりこっち
<Lasso regression>
・回帰係数の絶対値の和が閾値を超えないという制限を設ける
・Ridgeと異なり、最終モデルから効果的に予測変数を除外できる
 - 一部の回帰係数を0にして除外?
 - より単純なモデルにしたければ、ridgeよりこっち

【実例紹介】
・機械弁患者3118人を対象に、弁の故障をイベントとした予測モデル
 - イベント56でリスク因子10(EPV5.6 < 10)
 - ロジスティック回帰、ridge、lassoの回帰係数と較正能を比較
 - Backwards stepwise (BS: α<0.15)も含めた4方法の性能を内的検証で比較
・ridge > lassoで回帰係数が縮小された
 - とくに高リスク者の予測確率が小さくなった
・各モデルのcalibration slopeは以下で、ridgeとlassoが優秀
 - ロジスティック回帰 0.76 (0.65, 0.99)
 - ridge  1.01
 - lasso 0.94
 - BS 0.77
・各モデルのAUCはだいたい同じ
 - 3モデルのAUCはすべて0.80 (0.78, 0.82)、BSも0.795

【まとめ】
・イベント数が少ない場合は、通常の単変量での選抜やStepwiseは避けるべき
 - 低リスク群と高リスク群を誇張する
 - のでpenalised regressionを使用すべき
・既存エビデンスが利用できるなら、penalised regressionよりいいかも
・極端に発生が少ない予測因子があるなら、penalised regressionも不適当かも
 
【コメント】
うーん単変量&BS選抜した予測モデル投稿してます…かなり丁寧に作ったので、既存モデルよりは優れている自信があります。が、低リスクと高リスクを効果的に識別できる!というよくばり結論はアウトに近い…まー兎に角外的検証の結果次第ですが。外的検証→性能もひとつなら前向き作り直し→更に外的検証、という一連の流れをやらないと無責任なんですね…どんだけ大変なん…脊椎領域でそれやってるの1つもみたことない…

あと私の愛用するSTATA15ではlasso&ridgeはできない(STATA16から搭載)模様。研究費獲ったらそれでup gradeするというケチ根性で、とりあえずpackageで対応できないか探してみます。結局lassoなら変数選抜できるってことか。この記事ではわからなかったので、更に勉強しなければ…普通に臨床しながらやることじゃ〇△✕

椎体形成術(VP)について文献検索をしていて、またVPをディスる文献をみつけてしまったので読んでみます。著者はやっぱり反対派のTopで、NEJMでRCTやったりCochraneとそのup-dateしたこの界隈では最も高名なBuchbinder(バックビンダー?)先生で、2019.5月のコメント。雑誌はInternal Medicine Journalというオーストラリア誌(2019IF1.7)。

Why we should stop performing vertebroplasties for osteoporotic spinal fractures

<まずはじめに>
・1980年代後半にVPがはじまった
・まず観察研究で除痛効果(VAS2.5)と安全性(合併症1%)が報告された
・ラザロ徴候(脳死者が手足を動かす)なみの奇跡かよ!ともてはやされた
  - のでエビデンスに基づかないまま急速に普及した 

<最初のRCT>
・導入20年(2009)にやっと最初のRCT 
 - NEJMに2本 ←1本はバックビンダ―先生発
・ 結果はどちらも「効果なし」
 - 効果はプラセボ効果、自然経過、平均への回帰、患者の期待によるもの

<最初のエビデンスへの反応>
・反応は賛否両論
 - 地域によってVPを保険から外したり、そのまま継続したり
・米国内でも整形外科学会は強く反対した一方で、強く推奨する他団体もあり
 - 結果として放射線科では増加し、他科では減少
・2008-2014の期間で、VPは半減
 - でもRCTもないKyphoplasty(KP)が一旦減って徐々に増加
・VP/KPの75%は低所得者層に施行されていた

<業界が国民を欺いた>
・Web上には怪しい情報が満載
 - 放射線科学会HPですら「60-90%の患者に効果あり、合併症は5%以下」
・「ある業者」はWikipediaをよりVP/KP推しに変えようとして失敗
 - 「ある業者」は団体と結託してVP/KPの啓蒙活動を現在も続けている

<続く3つのRCTもコケた>
・NEJMのRCTをサブ解析して、発症早期なら効果あるかも?との結果
 - そして<8W、<6W、<9Wに限定した3つのRCTが施行された
 - 2つの結果は「無効」、1つは「有効」
 - でも「有効」だったRCTは過大評価のバイアスリスクあり
・5つのRCTを中心としたCochrane reviewではかなり強い結果
 - 痛み、機能障害、QOL、治療成功した実感いずれにおいてもVPは「効果なし」

<サブグループにおける仮説を掘り下げる>
・<3Wに限定した解析もしてみたけど、やっぱり「効果なし」
 - だから「発症早期なら効果がある」との仮説には疑問
・VPは早くした方がいい!との考えには反対
 - 多くの骨折は発症早期に改善するので、自然経過を「VPの効果」と誤解
・エビデンス総体として効果はほぼ0
 - 一部の患者に著効と主張するなら、反面多くの患者に逆効果ということ

<なんでここまでおかしな状況になったか>
・臨床経験や観察研究における誤解、「VPの奇跡」には理由がある
 - 盲検化なし、自然経過が良好、アウトカム自己評価の場合25%の効果増
 - 非盲検化試験の結果から増加分を引くと、盲検化試験と完全一致
 - 医者は全員このバイアスを理解しなさいよ!

<先ず隗より始めよ>
・VPには感染、肋骨骨折、続発骨折、セメント塞栓、麻痺や死亡のリスクがある
・6つのRCTを統合した結果も続発骨折のリスクを示唆
 - VP vs プラセボで48/418 vs 31/422、リスク比1.29 (0.46, 3.62)
・VPをやめさせるために医者は
 - 患者とともにrisk-benefitが釣り合わないことを知るべき
 - 患者に事実を伝え、エビデンスに基づいた意思決定を行わせるべき
 - 患者にインターネットの情報や「啓蒙活動」を過信するなと警告すべき

【コメント】
読んでいてかなり興味深い記載がたくさんあったので、思わずほぼ全訳してしまいました…確かにバックビンダ―先生の言っていることも一理あるなぁ。調べてみると、世界大学ランキングTop100に入るMonash UniversityのClinical Epidemiologyの教授(2007年~)と。これは相当な強敵…先生とその同胞が恐らくTop journalの審査側に入るので、非の打ちどころがない研究をしないと反対意見を公開することすらできないでしょう。

臨床医の立場からすると、VP(日本ではBKP)がやはり「奇跡」を起こすことは絶対あります。先日もふさぎ込んで食事も入らず寝たきりの90歳の女性が、BKP翌日からモリモリ食事して歩行練習開始できました。最初はもうこのまま…とすら思った超高齢者が、自宅に帰る準備しているわけです。バックビンダー先生はこっち側(臨床家)ではなく、そっち側(EBM)の人です。臨床経験を妄信せず、謙虚にならなければならないのは間違いない!のは正にその通りですが、EBMと臨床には少なからず乖離があることを強く感じます。

こっち側の人間には、「そっち側の意見を真摯に受け止める」こと、「臨床経験を謙虚にふりかえる」ことが求められます。その上で実感する「奇跡」をどのように形にしていくか…は私のようなこっち側とそっち側の間をウロウロする人間に与えられた命題のような気がしてきました。がんばらなくっちゃ!にしてもメド〇ロ相当嫌われてんなぁ…結構えげつない商売してるんだろうな…

お世話になっている某大学の先生からこんな治療法があるよ!と硬膜外癒着剥離術(PEA)のご紹介があり、後日取扱い業者の方の説明がありました。局所麻酔下に仙骨裂孔から写真のようなカテーテルを挿入し、患部に生食を通したりステロイドを流す治療で、韓国では相当普及しているとの事。なら成績はどうなんだろう?と文献を探してみました(我ながら成長したなぁ…)。すると関連文献はPain Physician(2019IF3.3:麻酔科領域では10番目ちょっとの雑誌)の独壇場。ちと旧いですがガイドラインにも載っているようでしたので、PEAのパート(1.2.2.1 Percutaneous Adhesiolysis; S96-S100)をざっとまとめます。
PEAカテーテル

An update of comprehensive evidence-based guidelines for interventional techniques in chronic spinal pain. Part II: guidance and recommendations

<効果>
・PEAは術後遺残疼痛や腰部脊柱管狭窄症(LSS)に効果的であるとされ、肯定的なSystematic reviewがいくつかでている。
・具体的には術後遺残疼痛についてのRCTが4つ(質は高が3、中が1)、LSSついてのRCTが1つ(質は高)と観察研究が1つある。USPSTF基準で評価すると、術後遺残疼痛に対するPEAの効果はfair、LSSに対する効果もfair.

<合併症>
・最多なのは硬膜損傷で、頭痛が生じブラッドパッチが必要になることがある。
・次に多いのは、麻酔による脊髄ブロック下の高圧生食による神経損傷で、予防のために高圧生食注入30分前から麻酔が効きすぎていないか観察することが必要。
・一過性の麻痺の報告もある。
カテーテル破損の報告もある。その場合抜去せず留置したままにする。主因はスタイレットをしっかり挿入しないままの操作で、術者の経験に左右される。
・血腫と感染の可能性もあるが、血腫を報告した文献はない。
・全体的に合併症は軽微で管理可能であり、熟練した術者が行えば安全な手技。

<推薦>
PEAは術後遺残疼痛や保存的加療が無効なLSSに対し施行が推薦される。

【コメント】
既存エビデンスの結果はまとまってなかったので割愛しますが、エビデンス総体の質はfairとの事。GRADEじゃなくてUSPSTF基準?はちょっとピンときませんが。個人的にはIF3前後の専門誌に載っているRCTやSRは際どい気がするので、推奨を鵜呑みにするのは危険かと。このガイドラインがでた後カテーテルの素材や手技を比較したRCTなども出ているようなので、今後発展していく可能性は感じます。本邦でも

 K188-2 硬膜外癒着剥離術 11000点

と保険収載されていますし。ただし、使用する機材(使い捨て)が10万円くらいするので、現状で病院側に経済的なメリットはあまりない様子。だからか、Webで調べると1泊2日で自由診療90万円!という案内も発見…少し闇も感じました。五月雨の記載になってしまいましたが、するしないは別として知識は持っておいた方が良さそう。大々的に取り入れるかは質が真に高いRCTを待ってからでしょうか。既存のRCTちゃんと読んでないですけど…読まなくてもだいたい想像が…

先日頚椎椎弓形成術の安全性についての論文を読んで、傾向スコア(PS)の使い方に違和感を感じましたので、そこスッキリさせるために勉強しようと思います。具体的には、PSマッチングした後で、PS算出に使った変数を用いて多変量解析するのは正しいのか?という点が知りたく。どこから手つけていいかわからないし、英語のブ厚い教科書読む時間がないので、まずは困ったときのBMJ総説から。

Alternative approaches for confounding adjustment in observational studies using weighting based on the propensity score: a primer for practitioners

と、読んでいったのですが、どうも(というかタイトルからしたら当然ですが)内容は重みづけ方法の選択や解説で、お恥ずかしながら今の私にはadvanceすぎました。ので、まずさわりだけいくらか肉付けしてまとめます(肉付けしすぎて原型とどめなくなってきた点はあしからず)。あとは勉強が進んでから帰ってくるということで…

【まずはじめに】
・PSとは、「個人が介入を受ける確率」
 - なので0-1の数字
 - PSを算出する目的は交絡の調整
 - 介入と同時点もしくはそれ以前の、測定できた背景情報から算出
 - 未測定交絡は調整できない
・PSを用いても、質の高い観察研究を超えるわけではない 
 - でも研究対象を明らかにし、不適格者(スコアほぼ0)を除外できる利点

・PSによる交絡調整法はさまざま
 - マッチング、層化、共変量として調整、重みづけ

・主流はPSの近い介入あり者となし者のマッチング
 - でも余った介入なし者を破棄するデメリット
 - マッチング後に共変量のバランスがより崩れる現象も
 - バランスが崩れた際は共変量や交互作用項を増やす?
 - みているのは「介入あり」がもし「なし」だった場合の効果の差
   =曝露群における平均処置効果(ATT)
 - 対象者全員が「介入あり」な場合と「なし」な場合の効果の差
   平均処置効果(ATE)もしくは平均因果効果(ACE)はみれない

・一方重みづけには多くのメリットがある
 - まずサンプルを破棄しないのでマッチングより精確
 - 共変量として調整するより、バランスが報告しやすい
 - 対象集団をハッキリさせやすい
 - ATTだけではなく、ATEもみれる
 - 従来のIPTWやSMRWだけじゃない方法も開発されている

【コメント】
マッチングで共変量のバランスが崩れたら、調整するのもアリなのか?でもマッチング自体が失敗しているので、バランスが良くなるようモデルを変えないといけないのでは??ちょっと整理してちゃんと勉強していかないとダメですね。やっぱり英語の教科書読もうかな涙。まずは以前も紹介した、康永先生方の教科書が道標になりそうです。読みなおすとします。てか結局交絡の調整が目的なので、キモは重要な交絡がちゃんと測定でき、利用できるかどうか。なんかよくわからないけどPS使ったらそれでOK!という短絡的な考えは…

先日査読者とのやりとりの記事で査読者からのコメントと対策をまとめましたが、引っかかった点があり。投稿している論文では主解析をComplete-case-analysis(CCA)にして、欠測をMultiple-imputation-analysis(MIA)で補完して感度解析にしていたのですが、「MIAはよくわからないのでOmitしろ」「CCAは感度解析にまわせ」との指摘があり、じゃあ主解析はどうすればいいんだろう…と悩んだわけです。誤解なら申し訳なさすぎますが、統計ソフトで解析する際はデフォルトでCCAになっていることをご存じなかったのかもしれません。

というわけで、欠測の取り扱い方法について。私は以前BMJの記事を読んで勉強したので、サラッと紹介しつつ、自分の理解を加えてまとめておきます(のでズレてたらすいません)。ちなみに後半部分はMIの各論になるので、本記事ではその手前まで。

Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls

【欠測メカニズム】
Missing completely at random (MCAR)
欠測は完全に偶然おこる
→欠測あり/なしで欠測変数の分布は同じ

例:血圧計が壊れて測定できなかった
→欠測あり/なし群の真の平均血圧は等しい

Missing at random (MAR)
欠測は偶然ではない
でも欠測は欠測変数とは関係ない原因でおこる
ので頑張れば欠測の原因がわかる
→欠測あり/なしで欠測変数の分布は異なるが、別の変数で説明可能

例:若者は面倒臭がって血圧を測りにこない
→欠測あり群の真の平均血圧はなし群のそれより低い
→でも「若者」の情報を用いて欠測あり群の平均血圧は推測可能

Missing not at random (MNAR)
欠測は偶然ではない
そして欠測は欠測変数の関係した原因でおこる
なので欠測の原因はどう頑張ってもわからない
→欠測あり/なしで欠測変数の分布は異なり、別の変数で説明できない

例:血圧高く頭痛がある人は血圧を測りにこない
→欠測あり群の真の平均血圧はなし群より高い
→「血圧高く頭痛」の情報は得られないので、推測もできない
←血圧測りにきてないので

【欠測メカニズムと適切な解析集団】
MCAR →適切な解析はCCA
欠測は完全に偶然に起こっているので、CCAでバイアスはない。そもそも欠測に特別な理由がないのでMIは使えない。(もしMCARが強く主張できるなら、)単純に欠測なし群のデータを補完する方がCCAより検出力の向上期待できる?

MAR →適切な解析はMIA *条件付き
欠測には理由があり、その理由がわかっているのでMIで欠測値が推測可能。CCAだと異質な欠測あり群のデータをそっくり落とすことになり、MIAよりバイアスが大きい。純粋にサンプルサイズもMIA>CCAなのでMIAの方が検出力が高い。しかし、あくまで①欠測の理由がわかる、②その理由となる情報が全て利用できる、という非常に強い仮定(とくに②は非現実的)を満たした場合のみ。実際は、MIA>CCAがいいかどうかはどのくらい①②が満たせてそうか?に依る。

MNAR →適切な解析はない(CCAでもMIAでもバイアス)

【まとめ】
何を主解析にすべきか?は理論上ははっきりしていて、欠測メカニズム次第ということになります。でも、現実的なところ欠測メカニズムはそもそも欠測してるんだからわかるわけない。多分こうだよね~と想像しつつ、一番ましな方法に落ち着くしかないです。というわけで、個人的な最適解は主解析をCCA / (できるだけ頑張った)MIAを感度解析だと考えています。ぶっちゃけ解析方法はCCAかMIAの2択ですし、「MARで欠測理由となる情報が全て利用できる」なんて無理…ですのでこれが一番素直かなと。

【コメント】
考えれば考えるほど、じゃーどうしたらええねん!と迷子になります。でもそうなんだから仕方ない。「Nを増やす偽装工作の意図で欠測は見て見ぬフリ」もしくは「欠測の存在を考えてすらいない」でTable1のN数と解析のN数が異なる論文はそこそこの雑誌でもよく見かけます。多変量解析に使用した変数だけでMIして、どうだMIAだぞ!と結果を主解析にもってくる論文も実は結構ムリ通してます。何が正しいかはわかりませんが、信念もって研究しなきゃなぁと思う今日この頃。という真面目な話はこのへんにして、この査読者、自分がわかってないの解析のせいにして統計家に相談しろとかほんとひどいっす…

このページのトップヘ