二択で迷ったらアグレッシブな方を選べ

本ブログのコンセプトは 「外科系臨床医に臨床研究について知ってもらう」です。自分で勉強したことを備忘録として気ままに書いていますので、情報の真偽については責任を負いかねます。また専門性が高い方にとっては内容が浅い点、分量が多くて読み辛い点もご了承くださいませ。

カテゴリ:ひとり抄読会(その他) > 総説

臨床復帰して4本目、次は臨床予測モデル(CPM)の執筆にとりかかります。まずはお手本論文!を探してみつかったCPMのサンプルサイズ(SS)設計についてのBMJ(2020)の総説をまとめます。BMJはほんとためになります...と思って読んだけど、難しすぎて後悔…かなりの意訳なので、ズレてたらホントすいません。

Calculating the sample size required for developing a clinical prediction model

【まずはじめに】
・CPM開発に必要なSSはわかっていない
 - 様々な経験則で議論されてきた
・本論文では、方法論に基づいた計算法を紹介する

【使用変数×10イベント」ルールからの脱却】
・従来2値CPMの必要SSは使用変数×10イベント
 - でもカテゴリ変数や交互作用項がありもっと必要
 - ちなみに使用変数は最終モデルだけじゃなく全て
・×10ルールが提唱されたのは1990年代
 - わかりやすいので普及した
 - 10で足りるか足りないか未だ議論がある

【精確な予測かつover fittingを最小限にするSS計算】
 van SmedenとRikeyが提唱した4つの計算法を紹介
   - 4つ全て計算して、最大のSSが必要SS

Step 1 アウトカムを精確に予測するために必要なSS
 変数を含まないヌルモデル(切片)の精確な予測に必要なSS(n)
 *許容できる誤差範囲、アウトカム発生割合の指定が必要
n= (1.96 / 誤差範囲)2 × 発生割合 × (1 - 発生割合)

Step 2 変数の数も考慮
 MAPE:Mean Absolute Prediction Error 
 *MAPEと、変数の数と、アウトカム発生割合の指定が必要
    - MAPEは0.05より小さい数を指定すべし
n = exp ([-0.508 + 0.259ln(発生割合) + 0.504ln(変数の数) - ln(MAPE)] / 0.544)

Step 3 Shrinkageも考慮
 Cox-Snell R二乗統計量:R2cs
   - 高値(1に近い)であれば多くの変数を組み込むことができる?
 S:expected uniform shrinkage factor
 *例ではR2cs = 0.1を指定
   - 指定根拠は本文中のFig. 4に(難しすぎるので割愛)
 *Sは ≥0.9 を推奨
n = 変数の数/ (S -1)ln(1 - R2cs/S)

Step 4 Optimismも考慮
 Sも計算し、Step3の式に入れる
 *許容できる誤差範囲 ≤0.05 を推奨
S = R2cs / (R2cs + 誤差範囲max[R2cs])

ちなみに、pmsampsizeパッケージをダウンロードすればSTATAでStep2以外はパっと計算できてしまいます。Step2は本文中で紹介されたリンクで計算できます。理論は完全にはわかんなくても数字は出せちゃいました。

【コメント】
これ真面目に計算したら、必要SSは相当高くなりそう…このSS満たさないと査読しないよ!という流れになってくるのでしょうか?CPM研究相当淘汰されるなぁ。ソフトにぶち込んだら何となく結果が出るし、CPM研究はちょっとかじった(私のような)臨床研究者が飛びつくため、相当数が世に出ています(私も3研究施行中)。でもその殆どは使われない(使えない)ため、ゴ〇としてEBMの海を漂流しています。この現状を打破するために、真の臨床研究者たちは気を揉んでいるんでしょう。能力的にも、やりたいこと的にも私は真の研究者にはなれませんが、新しい(正しい)ルールに遅れないよう、情報をup dateし続けなきゃ。それだけでも気が遠くなる…大学院終わったらどうしよう…

悲しいことに、臨床復帰して最初に書いた論文が迷子です。JBJS、OAC、CORRがダメで、Spine Jに出していたのですが4ヶ月待ってreject…これまで8人の査読者がついて、方法論については及第点だったようですが、要因の誤分類や新規性などそもそも的なところでreject。整形外科系の雑誌にneedsはないのかもしれません涙それにしても結果返ってくるまでの期間が長すぎ…

査読コメント見直していて、副編集長から「この論文読んで変数選択の根拠について述べなさい」と因果グラフ(DAG)の使用を示唆されたので、この際読んでみます。BMC Medical Research Methodology(2018IF3.0)に2008年掲載の総説。実際DAGは描いていて、未測定交絡もDAGを元にlimitationに挙げてたんですけど…藪蛇なので本文には記載しませんでしたが。反論のchanceがないのが切ない…

Reducing bias through directed acyclic graphs

Background
・臨床研究でやりたいのは因果推論
 - 交絡調整が必要条件(十分条件ではない)
 - ふつう交絡変数を多変量モデルに入れて調整
 - 変数選択が不適切だと逆にバイアスがふえる
 - なので変数選択が適切か評価する必要あり
 - DAGを使う
・変数選択によるバイアス増減の評価法を紹介

The Pragmatic Solution
・このアルゴリズムは適切な変数選択が目的
 - 全てのバイアスを最小化する方法ではない
・複数の変数と因果関係がある変数は全て記載
 - 共通の原因を省略してはいけない

Step 1: 交絡変数(Zn)は曝露変数(X)の子孫にはならない
XからZnに→が向いてはいけない

Step 2: 以下を満たす変数を消す
 1) Xの非祖先
 2) アウトカム(O)の非祖先
 3) Znの非祖先

Step 3: Xから出る→を消す
見た目がスッキリする

Step4: 共通の子をもつ親を点線で結ぶ
親2人の子を調整すると、親同士に関連が発生
親2人の子はcolliderと呼ぶ

Step5: →から矢じりをとって直線にする
見た目がスッキリする

Step 6: Znからでる線を全て消す
=モデルにZnを入れてblockする

Interpretation
Step 6が終わってXとOが結ばれていなければOK
=Step 6でblockしたZnが適切だったと解釈

Discussionのまとめ
・blockするZnを追加し、XとOが結ばれる場合
 - 追加したZnによりcolliderバイアスが導入された
・step 6を繰り返して、XとOが離れている最適なモデルを探す
・DAGを使うと、調整する共変量が減らせるので検出力があがる
・同じ変数でも、時点によって関連性がかわる
 - 時点で別の変数にして調整する
 - と、結果がかわることもある
・DAGは利用可能な全てのエビデンスに基づくべき
 - 様々な専門家の様々な視点の導入が必要

【コメント】
以前Modern EpidemiologyでDAGの勉強をしたのですが、その簡単なまとめ的な論文でした。知識の整理は役立ちましたし、DAGの勉強を始める際に読むといいかもしれません。本文は図がたくさん載っていてわかりやすいです。「調整する変数多くすればいいというものではない」ことは改めて胸に刻んでおきます。というか、脊椎系の雑誌でDAG理解して使っている論文みたことないけど…そもそも交絡の調整も殆どされてないのにイジメ??

臨床での悩みも尽きず、現実逃避も兼ねて論文執筆指南本を読んでいます。そこで紹介された興味深い論文について。Scientometricsという雑誌(2018IF2.8)に2007年に掲載された「自己引用はどれくらいご利益があるか?」という論文。PubMedでは引っかからなかったのですが、Webから無料で全文読めました。方法論は抜きにして概略だけ…

Does self-citation pay?

【内容のまとめ】
・ノルウェーの文献DBの6万論文(70万引用)を解析
・1著者の執筆数は平均7本
 - 被引用回数は85回
 - うち自己引用は10回(12%)
・activeな著者ほど自己引用が多い(相関係数0.64)
・自己引用すれば被引用も増える傾向あり、1回の自己引用で
 - 翌年1.03 (0.64, 1.42) 回被引用増
 - 4年で2.83 (2.00, 3.68) 回被引用増 
 - 10年で3.65 (1.13, 6.19) 回被引用増

【コメント】
以下紹介する本では、自己引用の動機を以下のように紹介しています。
・議論を展開するうえで必要
・被引用数を増やしたい(h-indexあげるため)
・内容をよく知っているので引用が楽
・自分の専門と実績を示す
 - 読者がわざわざ調べる手間を省く
 - 似たような研究者とつながる

そして、「自分の研究を引用したからといって、恥ずかしがることはない」と自己引用を勧めています。大学院の「論文の書き方」の講義でも、講師先生が「自己引用することは真面目に研究していたら必然」といった旨話されていました。実利(被引用が4年で3件増える)もあることですし、今後実績増えたら是非自己引用してみようと思います。といいながら疫学勉強し始めて3年ちょっとで、まだ筆頭著者の論文通らずですが涙。臨床戻って1年3ヶ月で原著3本完成して、共著1本通って4本投稿中、来年にはきっと自己引用できるようになっているはず…

論文を書く際(というほど経験ないですが涙)の標準的な流れは、背景情報の要約(記述部分)、単変量解析、多変量解析…と方法の項に記していくことになると思います。その際に私は何も考えずにMultivariate analysisと書いていた気がします。が実はこれは間違いで、実際はMultivariable analysisだったと…先日大学院の研究ミーティングで後輩が教員先生に指摘された際に、私も初めて知りました。調べてみると、American Journal of Public Health(2018IF5.4)に以下のような記事が。

Multivariate or Multivariable Regression?

<Multivaliableモデル>
 左辺がアウトカム、右辺が多変数のモデル 
 =我々が交絡調整などでよく使うモデル
 ⇔ simpleモデル

<Multivariateモデル>
 同一個人での複数時点での測定データ
 各層に複数人を含む入れ子やクラスターのデータ
 をモデル化したもの

・2011年度のAJPHで「multivariate」モデルを使った文献は30本 
 - 正しく「multivariate」だったのはたった5本(17%) 
 - あとの25本は実際は「multivariable」だった
・方法の項では変数の数でsimple or multivaliableを使い分ける
・また、アウトカムの種類によってモデルを使い分ける
 - 連続値なら線形モデル
 - 2値ならロジスティックモデル
 - 複数測定ならmultivariateモデル
 - 時間変数なら部分ハザードモデル

【コメント】
すなわち、simple multivariate analysisとか、multivariable multivariate analysisと表記する?ことがあるということですね(何か気持ち悪いけど…)。全然知りませんでした…教員先生も、論文投稿した際に査読者に怒られて知ったそう。確かに日本語訳するとどちらも「多変量」になるので、ややこしいです。この辺は全く別の概念である割合(proportion)と率(rate)がごっちゃになっているのと同じような問題でしょうか。まぁそもそも脊椎外科領域ではmultivaliable modelを使った研究すらあまりみかけないので、multivariateだろうかmultivaliableだろうが些細な問題かもしれませんが涙…ガチのRCT以外で単変量解析する意味殆どないけど、査読者含めわかってやってる人どの程度居るんだろう…

大学院の研究ミーティングの際に、「Statistically significantって書いたら、査読者にやめろ!と怒られるよ」という噂が聞こえてきました。え?まじですか!?というわけで、Nature誌の関連コメントを(大幅に意訳して)まとめます。私の勝手な解釈&訳である点はご理解を。公開されていますので、興味ある方は是非原文をご覧ください。

Scientists rise up against statistical significance.

P値が有意じゃないから差がない!とよく学会で聞くよね?聴衆に、一部でもいいので「は?」と思った人が居ることを願う。

<Pervasive problem>
まず、「Pが0.05より大きいから、信頼区間が0またいでるから差がない」と主張するのをやめよう。ある研究では有意、別の研究では有意じゃない場合に「反対の研究結果だ」と判断することをやめよう。

抗炎症薬とAfの関連をみた研究を紹介します。先行研究では有意差がでたが、後の研究では有意差にはならなかった。そして研究者の一部は先行研究とは反対の結果だ!抗炎症薬は悪くない!と結論づけた。実際の数字をみてみると、後の研究ではリスク比1.2 (0.97, 1.48; p=0.091)、先行研究ではリスク比1.2 (1.09, 1.33; p=0.0003)と、どちらも信頼区間内に重要な結果(20%のリスク増)が含まれている。このような愚かな解釈が何百もの文献でみられている(約800文献調べたら半分は間違った解釈)。

2016年にAmerican Statistical AssocistionがP値の誤用について声明を出していますが(以前記事にしました)、今月新たに特集を組んで紹介している。そこで編集者たちは「Statistically significant」という表現はもう使わないことを表明し、多くの生物統計家たちも賛同しています。臨床試験で是非を問う場合の使用を否定するわけではないし、弱いエビデンスを見直せと言うつもりは毛頭ない。従来のP値0.05だけで是非を問う二拓の判断法をやめようと言っているのです。

<Quit categorizing>
人間は二拓の結果があると、白か黒かはっきり区別したくなる。なので有意な結果は大げさに解釈されるし、有意じゃない結果は過小評価されてしまう。そして研究手法や計算法を操作することで、「望ましい結果を誘導する」ことが可能になってしまっている。この操作は「研究手法の事前公開」をしても完全には防げない。

同じように研究しても結果は自然とばらつき、P値は有意になったりならなかったりします。ので、結果の不確実性を理解する必要があるし、「信頼区間」は「compatibility intervals」と言い換えて、信頼しすぎないように、そして区間内の特定の数値にこだわらず、区間全体を結果として考察することを提唱します。

「差がない」との(愚かな)主張があふれていることにはウンザリします。ただ、区間内に重要な数値が全く含まれていない場合には「本研究結果は、重要な効果はないとの結論に最も適合する」と主張することはできるかもしれません。

「compatibility intervals」について考察する際は、以下の4点に注意しましょう。まず第一に、あくまで区間内の数値は「適合度が高い」というだけで、区間外の数値が「適合しない」ということではないこと。第二に区間内の数値の適合度は全て同じではないこと。点推定値付近が最も適合し、区間内ギリギリの数値の適合度は低くなる。第三に区間の計算自体がP値計算と同じく5%をカットオフにしていること(恣意的に計算した数値であること)。そして最も重要なのは、区間の計算自体がどれだけ精確か、用いられた仮定が妥当かということ。

結果を解釈する際には望ましい解釈だけではなく、あらゆる解釈をすべきです。P値や推定区間より、既存の結果、研究デザイン、データの質、メカニズムなどがより重要です。是非の二拓が必要とされる状況もあるでしょう。その場合でも、P値のみで判断するより、コストや利益、潜在的な結果もふくめた総合的な判断がより優れている。

「Statistically significant」を廃止したらどうするか。我々は方法の項と提示されるデータがより詳細になることを望みます。そして著者は区間の上限と下限を引き合いに議論を行う。P値を載せるにしても、「0.05」のカットオフはやめて、実数を載せる。そうすることで統計ソフトに向き合って0.05未満のP値を捻りだす無益な時間がカットできる。

「Statistically significantを廃止」して、「信頼区間をcompatibility intervalsに変更」することで万事解決するわけではない。でも悪しき風習の多くを排除し、新たな考えを導入するきっかけにはなるでしょう。「Statistically significant」の誤用は科学の発展に大きな害をもたらしてきた。ようやく見直す時期がやってきました。

【コメント】
非常に重要なコメントだと思います。論文書くときは先行文献をいくつか参考にしながら書くのが普通だと思いますが、その半分(以上?)がマチガイだったと。信頼区間は今後やめて、適合区間?にかえよう。誰もが当たり前のように使ってきたP値計算、ついに生物統計家たちがその誤用を正すために立ち上がったようです。今後査読するときWe actively discourage use of the term "statistically significant" and statements in method sections such as "findings at p<0.05 were considered signifcant"って書いたろ…

このページのトップヘ