予測モデル研究をしていて、似たようなフレームの先行研究が見つかってしまいました。悲しい気持ちで細読していると、どうも解析があちこち間違っている。本邦発なので、キツイletter書くような強硬手段には出れません。そこでピンチを前向きなチャンスに変えれないか?と、基本を復習する契機にすることにしました。今回はまずロジスティック回帰について整理してみます。高校時代、理系なのに模試で学内141/142番をとったトラウマがある私の理解なので、間違っていたらホントすいませんが…大/小文字や括弧の使い方がヘンなのはご容赦を…

【なぜロジスティック回帰なのか】
あるアウトカムを可視化するために、数式を組み立てるのが統計モデリングです。そのためにはまずアウトカムがどういう分布をとるか?を考えます。臨床アウトカムの多くは死亡か生存か?など有/無の二値変数になり、ベルヌーイ分布に従います。ロジスティック回帰はこのベルヌーイ分布を説明するのに都合がいいため、よく用いられます。

【ロジスティック回帰とは】
分布の形状と位置を決める因子をパラメータと呼びますが、ベルヌーイ分布を決めるパラメータは「Y=1となる確率P」のみです。すなわち、ベルヌーイ分布に従うデータはPの関数として数式で表すことができます。患者iごとにPは異なり、その確率はX1, X2, X3の3つの変数で説明できるとします。するとPi
 Pexp (α+β1X1i+β2X2i+β3X3i) / {1 + exp (α+β1X1i+β2X2i+β3X3i)}

という数式で説明できます(誰が考えたんだ…)。そしてこの式を変換すると
 Pi / (1-Pi) = exp (α+β1X1i+β2X2i+β3X3i)

になり、更に対数をとると
 log Pi / (1-Pi) = α+β1X1i+β2X2i+β3X3i

になり、Pの関数である log Pi / (1-Pi) が、α+β1X1i+β2X2i+β3X3i という直線式で説明されちゃいます。こうなると、最小二乗法で手元のデータから定数である α や β1-3 が算出されてきます。ちなみに log Pi / (1-Pi) をロジットと呼びます。

【ロジスティック回帰の使い方①~交絡調整】
X1(二値変数とします)とアウトカムがどの程度関連するか?を可視化したい、しかしX2とX3という交絡因子があるためこれらの影響を除外(調整)しなければいけない、という(あるある)例を考えます。まず最初に、アウトカムとX1-3の関係を説明する先述の式が再登場します。
 Pi / (1-Pi) = exp (α+β1X1i+β2X2i+β3X3i)

この式では、なんと左辺がオッズになっています(考えた人天才…)。なので、X1=1のときとX1=0のときのオッズはそれぞれ、ごちゃごちゃするので添え時は削除…
 P/ (1-P) = exp (α+β1+β2X2+β3X3)
 P/ (1-P) = exp (α+β2X2+β3X3)


になります。なのでX1=0を基準としたX1=1のオッズ比は
 OR(X1) = exp (α+β1+β2X2+β3X3) / exp (α+β2X2+β3X3)
         = exp (β1)


になり、 なんとβ1の真値をとれば、X2とX3から独立したX1のオッズ比になるのです(誰が発見したんだ…)。

ロジスティック回帰の使い方②~予測
X1-3というリスク因子がわかっていて、これらの因子を用いてアウトカムを予測したい(アウトカムの発生確率を算出したい)場合を考えます。ここで登場する式も先述の、
 Pexp (α+β1X1i+β2X2i+β3X3i) / {1 + exp (α+β1X1i+β2X2i+β3X3i)}

です。α・β1-3は定数ですので、上記の式にX1-3の値を挿入したらそのままアウトカムの発生確率がでてきます。例えばスコアリングシステムを作った場合の数式は、
 log Pi / (1-Pi) = α+βScorei

になります。これを変換すると、
 Pexp (α+βScorei) / {1 + exp (α+βScorei)}

になります。この式にScore値を入れると、Score毎の予測確率が算出できます。

【まとめ】
私もそうでしたが、ちょっと臨床研究をかじると、「格好いいから多変量解析」「二値変数だからロジスティック」とよくわからないままロジスティック回帰を使うのがフツーだと思います。ただ、ある程度理論がわかっていないと簡単に間違ってしまいます。こんな場末のク〇ブログですが、少しでも現状の改善のために役立てば...と地道に続けようと決意を新たにする今日この頃…ちなみにCox回帰のCox先生がロジスティック回帰も開発したとの事…ゴイスー!ちなみに96歳でご存命…

【たまには本の紹介】
内容は1/100も理解できていませんが、色々な分布が紹介されていたり、統計モデリングを勉強するために入口となるような良書です。院生の多くが購入するのをしり目に、数式アレルギーの私は題名みて長らく敬遠していたのですが、もっと早く買うべきだったと後悔しております。