さて、私に休憩する余裕はないので、仕事まで勉強続けます。欠測の取り扱いは腹一杯になったので、目線を変えて次は「変数のカテゴライズ」の問題について…有名なHarrell先生の教科書を(今更)かいつまんでみていこうと思います。自身の研究のアラがわかってくるのは怖いですが、次につなげるためにもやらないわけにはいきません。

Regression Modeling Strategies

の2.4 Relaxing Linearity Assumption for Continuous Predictorsを…いきなり2.4.1が「カテゴリ化を避けろ」の小見出しで、非線形の変数をカテゴライズするというdisastrousなことは他にあるだろうか?と強烈な書き出しで始まっています。正直読みたくない…自分がわかりやすいように意訳しているので、真意とのズレの可能性はご容赦を。

【連続変数の二値化による問題】
連続変数のカテゴリ化には以下の問題がある。

・予測値の精度が低下し、解析パワーが落ちる
・カテゴリ化にはカテゴリ区間での関係が一定であるという仮定を要する
 - これは線形の仮定よりずっと強い
 - 境界を越えたら効果がかわる(不連続の関連)は非現実的
・正確なモデルのためには複数区間が必要である
 - 両外側の区間は広くなる
 - その区間内の対象者が著しい多様性と残余交絡を持ち込む
・カテゴリ内での差を無視する
 - 血圧162mmHgと200mmHgのリスクが同じわけない
・アウトカムが盲検化されていない状況でカットオフを決めると…
 - 普通にP値や信頼区間は計算できない
・ある研究の「最適なカットオフ」は他の研究では最適ではない
・交絡変数をカテゴライズすれば残余交絡をもたらす

カットオフで連続値を変換することは、1型エラーと2型エラーの両方が増える稀有な状況をもたらす。カットオフXとYの関係にカットオフcを用いる際には、以下の暗黙の仮定をおくこと

・XとYの関係はX=cのみで不連続
・cがカットオフであることが正しくわかっている
・XとYの関係はcの左右でフラットである
・cは他の予測因子の影響を受けない

これらの仮定が満たされていないと、謎のcをカットオフとして使用することは予測精度の低下、モデルの適合性の低下、残余交絡、残りの変数の影響の過大評価をまねく。

【コメント】
なるほど…胸が苦しくなる内容でした。まぁ、この記述は因果推論の際に、「線形の関連ではなさそう」な変数を「カテゴライズ」することを念頭にした記載のようなので、予測研究における連続変数の二値化と全く同じ理屈ではないでしょうが…(と信じたい)。ちょっと勉強を深めて整理しないと。さ、仕事は済んだし腹も減ったので帰って飯食べてワイン飲んで寝よっと…休憩する余裕はないけど、凡人なんで現実逃避は欠かせません…