Penalised regressionについて少し学んだところで、実例をみてみることに。変数選抜までしようと思ったらlassoになるようなのですが、lassoのお手本論文はないかな~と最近全然論文読んでいないので、Core clinical journalで「lasso」を探してみます。するとJBJSに面白そうな論文が。方法論的にお手本になるかどうかはちと不安ですが、折角なので読んでみます。

Predicting Occurrence of Spine Surgery Complications Using "Big Data" Modeling of an Administrative Claims Database

研究疑問 :脊椎手術合併症予測モデルの開発と検証
研究デザイン :データベース研究
セッティング :2006~2020の米レセプトデータベース

P 脊椎手術患者
E 各リスク因子あり
C 各リスク因子なし
O 主要:何らかの合併症
  副次:合併症数、入院期間、入院費、再入院、再手術

脊椎手術後の合併症を予測する予測モデルはなかったので、大規模データベースを使って開発と検証を行ってみました!という研究。

【方法】
・脊椎手術病名がついた患者を特定
 - 変性疾患、外傷、腫瘍、感染に分類
 - 並存症の病名とも収集
 - 術後1ヶ月以内の各種新規病名を合併症と定義
・予測因子を入院、外来、調剤、医師/病院への支払いレセプトから収集
 - 術前診断、11並存症、頚椎/胸腰椎、前方/後方、癒合、
   インスツルメント、多椎間、BMP
・まず開発コホート(80%)で主要アウトカムの予測モデル作成
 - 通常のロジスティック回帰にすべての因子を投入?
 - 術式で層化した予測モデルも作成
・残り20%で検証
・交互作用項を含めたモデルでlasso回帰も施行
・CARTとboostingによるモデル開発も施行 ←なにこれ…

【結果と結論】 *結果みたいわけじゃないので簡単に
・対象は約28万人
・合併症は14.0%で、先行研究と矛盾なし
・標準、lasso、CART、boostingではCARTの性能が劣った
 - boostingは標準回帰とほぼ同じ結果
 - なので標準回帰とlassoに注目
・でもだいたいAUC0.70前後で大差なし
 - Charlsonの予測能0.61より優れていた

などなどで、術前説明に役立つでしょ?という結論。

【批判的吟味】★★★★
サンプルサイズが莫大だし、イベントも14%あれば統計学的にはやりたい放題の羨ましい研究。ただ、いわゆるBig Smallデータ(浅くて多いデータ)で予測モデル作っても、臨床にどう役立てていいかピンときません。対象の選定も、リスク因子やアウトカムすべてがレセプト上のコードで定義されていますので、臨床使用するには粗すぎて…性能も妥当性検証までして信頼できそうなのは素晴らしいですが、AUC0.7で臨床意思決定に使うのは微妙です。あと、モデル作ったのはいいけど、どう臨床で使うかの説明がない!のでそもそも使い様がない…一応Nの暴力で★4つにはしますが。

というか、みたかったlassoの結果がAppendixになっていて、Ovidでのアクセスではみれず涙。結局細かなところがさっぱりわからなかったのは最大の誤算でした…

【コメント】
Lasso regressionについては3000件ほど既に既報があるようです。数割を占めるMe〇icineの文献はスルーするとして、いわゆるNEJM、Lancet、JAMA、BMJは全然hitしないということは、まだそこまで受け入れられている方法論ではない?というより小細工しなきゃな小規模研究はそもそも選外なのかな。悲しいかなJBJSは肩透かしだったので、次はJAMA₋IMなどをお手本に読んでみることにします。Lassoの勉強に一日使ってしまった…一応STATAで数字出せるようにはなったけど、時間が足りねぇ…