予測モデル研究をしていて、似たようなフレームの先行研究が見つかってしまいました。悲しい気持ちで細読していると、どうも解析があちこち間違っている。本邦発なので、キツイletter書くような強硬手段には出れません。そこでピンチを前向きなチャンスに変えれないか?と、基本を復習する契機にすることにしました。今回はまずロジスティック回帰について整理してみます。高校時代、理系なのに模試で学内141/142番をとったトラウマがある私の理解なので、間違っていたらホントすいませんが…大/小文字や括弧の使い方がヘンなのはご容赦を…
【なぜロジスティック回帰なのか】
あるアウトカムを可視化するために、数式を組み立てるのが統計モデリングです。そのためにはまずアウトカムがどういう分布をとるか?を考えます。臨床アウトカムの多くは死亡か生存か?など有/無の二値変数になり、ベルヌーイ分布に従います。ロジスティック回帰はこのベルヌーイ分布を説明するのに都合がいいため、よく用いられます。
【ロジスティック回帰とは】
分布の形状と位置を決める因子をパラメータと呼びますが、ベルヌーイ分布を決めるパラメータは「Y=1となる確率P」のみです。すなわち、ベルヌーイ分布に従うデータはPの関数として数式で表すことができます。患者iごとにPは異なり、その確率はX1, X2, X3の3つの変数で説明できるとします。するとPiは
Pi = exp (α+β1X1i+β2X2i+β3X3i) / {1 + exp (α+β1X1i+β2X2i+β3X3i)}
という数式で説明できます(誰が考えたんだ…)。そしてこの式を変換すると
Pi / (1-Pi) = exp (α+β1X1i+β2X2i+β3X3i)
になり、更に対数をとると
log Pi / (1-Pi) = α+β1X1i+β2X2i+β3X3i
になり、Pi の関数である log Pi / (1-Pi) が、α+β1X1i+β2X2i+β3X3i という直線式で説明されちゃいます。こうなると、最小二乗法で手元のデータから定数である α や β1-3 が算出されてきます。ちなみに log Pi / (1-Pi) をロジットと呼びます。
【ロジスティック回帰の使い方①~交絡調整】
X1(二値変数とします)とアウトカムがどの程度関連するか?を可視化したい、しかしX2とX3という交絡因子があるためこれらの影響を除外(調整)しなければいけない、という(あるある)例を考えます。まず最初に、アウトカムとX1-3の関係を説明する先述の式が再登場します。
Pi / (1-Pi) = exp (α+β1X1i+β2X2i+β3X3i)
この式では、なんと左辺がオッズになっています(考えた人天才…)。なので、X1=1のときとX1=0のときのオッズはそれぞれ、ごちゃごちゃするので添え時は削除…
P/ (1-P) = exp (α+β1+β2X2+β3X3)
P/ (1-P) = exp (α+β2X2+β3X3)
になります。なのでX1=0を基準としたX1=1のオッズ比は
OR(X1) = exp (α+β1+β2X2+β3X3) / exp (α+β2X2+β3X3)
= exp (β1)
になり、 なんとβ1の真値をとれば、X2とX3から独立したX1のオッズ比になるのです(誰が発見したんだ…)。
【ロジスティック回帰の使い方②~予測】
X1-3というリスク因子がわかっていて、これらの因子を用いてアウトカムを予測したい(アウトカムの発生確率を算出したい)場合を考えます。ここで登場する式も先述の、
Pi = exp (α+β1X1i+β2X2i+β3X3i) / {1 + exp (α+β1X1i+β2X2i+β3X3i)}
です。α・β1-3は定数ですので、上記の式にX1-3の値を挿入したらそのままアウトカムの発生確率がでてきます。例えばスコアリングシステムを作った場合の数式は、
log Pi / (1-Pi) = α+βScorei
になります。これを変換すると、
Pi = exp (α+βScorei) / {1 + exp (α+βScorei)}
になります。この式にScore値を入れると、Score毎の予測確率が算出できます。
【まとめ】
私もそうでしたが、ちょっと臨床研究をかじると、「格好いいから多変量解析」「二値変数だからロジスティック」とよくわからないままロジスティック回帰を使うのがフツーだと思います。ただ、ある程度理論がわかっていないと簡単に間違ってしまいます。こんな場末のク〇ブログですが、少しでも現状の改善のために役立てば...と地道に続けようと決意を新たにする今日この頃…ちなみにCox回帰のCox先生がロジスティック回帰も開発したとの事…ゴイスー!ちなみに96歳でご存命…
【たまには本の紹介】
内容は1/100も理解できていませんが、色々な分布が紹介されていたり、統計モデリングを勉強するために入口となるような良書です。院生の多くが購入するのをしり目に、数式アレルギーの私は題名みて長らく敬遠していたのですが、もっと早く買うべきだったと後悔しております。
【なぜロジスティック回帰なのか】
あるアウトカムを可視化するために、数式を組み立てるのが統計モデリングです。そのためにはまずアウトカムがどういう分布をとるか?を考えます。臨床アウトカムの多くは死亡か生存か?など有/無の二値変数になり、ベルヌーイ分布に従います。ロジスティック回帰はこのベルヌーイ分布を説明するのに都合がいいため、よく用いられます。
【ロジスティック回帰とは】
分布の形状と位置を決める因子をパラメータと呼びますが、ベルヌーイ分布を決めるパラメータは「Y=1となる確率P」のみです。すなわち、ベルヌーイ分布に従うデータはPの関数として数式で表すことができます。患者iごとにPは異なり、その確率はX1, X2, X3の3つの変数で説明できるとします。するとPiは
Pi = exp (α+β1X1i+β2X2i+β3X3i) / {1 + exp (α+β1X1i+β2X2i+β3X3i)}
という数式で説明できます(誰が考えたんだ…)。そしてこの式を変換すると
Pi / (1-Pi) = exp (α+β1X1i+β2X2i+β3X3i)
になり、更に対数をとると
log Pi / (1-Pi) = α+β1X1i+β2X2i+β3X3i
になり、Pi の関数である log Pi / (1-Pi) が、α+β1X1i+β2X2i+β3X3i という直線式で説明されちゃいます。こうなると、最小二乗法で手元のデータから定数である α や β1-3 が算出されてきます。ちなみに log Pi / (1-Pi) をロジットと呼びます。
【ロジスティック回帰の使い方①~交絡調整】
X1(二値変数とします)とアウトカムがどの程度関連するか?を可視化したい、しかしX2とX3という交絡因子があるためこれらの影響を除外(調整)しなければいけない、という(あるある)例を考えます。まず最初に、アウトカムとX1-3の関係を説明する先述の式が再登場します。
Pi / (1-Pi) = exp (α+β1X1i+β2X2i+β3X3i)
この式では、なんと左辺がオッズになっています(考えた人天才…)。なので、X1=1のときとX1=0のときのオッズはそれぞれ、ごちゃごちゃするので添え時は削除…
P/ (1-P) = exp (α+β1+β2X2+β3X3)
P/ (1-P) = exp (α+β2X2+β3X3)
になります。なのでX1=0を基準としたX1=1のオッズ比は
OR(X1) = exp (α+β1+β2X2+β3X3) / exp (α+β2X2+β3X3)
= exp (β1)
になり、 なんとβ1の真値をとれば、X2とX3から独立したX1のオッズ比になるのです(誰が発見したんだ…)。
【ロジスティック回帰の使い方②~予測】
X1-3というリスク因子がわかっていて、これらの因子を用いてアウトカムを予測したい(アウトカムの発生確率を算出したい)場合を考えます。ここで登場する式も先述の、
Pi = exp (α+β1X1i+β2X2i+β3X3i) / {1 + exp (α+β1X1i+β2X2i+β3X3i)}
です。α・β1-3は定数ですので、上記の式にX1-3の値を挿入したらそのままアウトカムの発生確率がでてきます。例えばスコアリングシステムを作った場合の数式は、
log Pi / (1-Pi) = α+βScorei
になります。これを変換すると、
Pi = exp (α+βScorei) / {1 + exp (α+βScorei)}
になります。この式にScore値を入れると、Score毎の予測確率が算出できます。
【まとめ】
私もそうでしたが、ちょっと臨床研究をかじると、「格好いいから多変量解析」「二値変数だからロジスティック」とよくわからないままロジスティック回帰を使うのがフツーだと思います。ただ、ある程度理論がわかっていないと簡単に間違ってしまいます。こんな場末のク〇ブログですが、少しでも現状の改善のために役立てば...と地道に続けようと決意を新たにする今日この頃…ちなみにCox回帰のCox先生がロジスティック回帰も開発したとの事…ゴイスー!ちなみに96歳でご存命…
【たまには本の紹介】
内容は1/100も理解できていませんが、色々な分布が紹介されていたり、統計モデリングを勉強するために入口となるような良書です。院生の多くが購入するのをしり目に、数式アレルギーの私は題名みて長らく敬遠していたのですが、もっと早く買うべきだったと後悔しております。
コメント