数年前の自分からは想像つかないのですが、齢40を超えて昼夜惜しんで論文を書く毎日。現在臨床復帰して8本目と9本目を必死に書いているところですが、未だに色々なポカをやってどんどん自分に自信がなくなる今日この頃。まー他人とは比較せず、昨日の自分には勝っている!(成長している)と言い聞かせつつ、挫けず進んでいくしかありません。

余談はさておき、昨日先輩から教えていただいてハッとしたことをまとめておきます。研究する際は変数の要約値(標本の分布の特徴)を記述しなければいけませんが、どう要約するのが妥当なのでしょうか。
正規分布に近い
こんな感じで、変数の分布が(ちょっと違うけど)正規分布に近ければ、「平均値」と「標準偏差」がいいのかな。「中央値」と「四分位範囲」と比べてみます。
 平均値 79.3  標準偏差 6.4
 中央値 80 四分位点 76, 84 

まーどっちも似たような感じか。じゃーこんな極端な分布してたら!?
正規分布じゃない
 平均値 30.6 標準偏差 52.9
 中央値 15 四分位点 10, 26

これは明らかに後者の方が妥当ですね!こんな感じでヒストグラム描いて分布をみて、要約法をかえるのが丁寧なんでしょうか。でもそれもちょっと微妙なときに迷うし、読む側も混乱する気がします。というわけで私は「中央値」と「四分位範囲」で要約するのがいいかな~と思っていました。しかし、疫学の達人たちは「四分位範囲」より「最大値最小値」を好むとの噂が!!そのココロは外れ値だと。

どんなデータでも入力ミスがあり得ます。たとえば身長1700cmとか、体重10.0キロとか、プラスマイナス間違えたりとか…こういう外れ値をそのまま残して解析すると、当然結果はちょっとおかしなことになります。もし「平均値」と「標準偏差」で要約してしまうと、外れ値の影響をモロに受けて要約結果は現実離れしたものに。一方、「中央値」と「四分位範囲」で要約した場合、要約値に外れ値は反映されないものの、結局解析結果は外れ値によって歪められてしまいます。もし「最大値最小値」で要約すれば、外れ値があればそのまま要約値に入ってくるので、外れ値があれば丸わかりだし、生物学的に妥当な数字であれば外れ値がないことを支持する結果になると。なるほど…でも、ちゃんとデータクリーニングをして外れ値を除外していた場合「最大値最小値」は恣意的な値ともいえるため、賛否両論あるそうです。というわけで、一番キレイなのは「最小」「25%値」「中央値」「75%値」「最大」になるのかもしれません。ちなみに先述の2つ目のdataだと

最小値 3 25%値 10 中央値 15 75%値 26 最大値 462

「462」が外れ値じゃなければ、分布の形も一番コレが良く示してますね。こんなん見たことない…

9月にAcceptされたBJJの論文がそろそろPublishされそうです。BJJでは「最大値最小値」で要約することがデフォルトなのですが、意味不明だなとシレっと「四分位範囲」使ってました。もしかしたら意味不明なのは私!?臨床研究は奥が深いです。もっともっと学んで経験積まないと、まだまだ人を教えるには程遠い涙…まー何でもかんでも平均±標準偏差で要約するよりはマシということで…