二択で迷ったらアグレッシブな方を選べ

本ブログのコンセプトは 「外科系臨床医に臨床研究について知ってもらう」です。自分で勉強したことを備忘録として気ままに書いていますので、情報の真偽については責任を負いかねます。また専門性が高い方にとっては内容が浅い点、分量が多くて読み辛い点もご了承くださいませ。

カテゴリ:研究の型別資料 > Systematic Review

査読員をさせていただいている整形系雑誌(IF2くらい)で、最近systemartic review:SRを査読する機会が多いです(例えば、現在査読中の4件のうち2件)。実績がない私のところにまわってくる時点で大分選択バイアスがかかってる可能性はありますが、どのSRもよーく似ています。誤解を恐れずにその特徴を申しますと

・中国人研究者
・英語が雑
・レジストリ登録やプロトコル事前公開がない
・使用するデータベース:DBに中国語DBが入っている
 - そして包含研究の多くが中国語(public access不可)
 - DB毎の検索式がないどころか、key wordの提示のみ
・Methodsが殆ど定型文
 - PRISMAに準じたと書いてるけど、全然準じてない
 - 解析はとにかくRevManに入れて結果だすだけ
・Risk of bias:RoB評価がないか、あってもめちゃくちゃ甘い
 - GRADE評価も同じ

みたいな感じで、そもそもSRとしての最低限のルールが守られていません。SRは他人の褌で相撲をとるうえに、エビデンス総体に迫るインパクトが大きい研究手法です。捏造しない限り研究するのは個人の自由とはいえ、質が低いSRするのは犯罪に近い行為。あまりにもひどいので、今回編集長に提言することにしました。その内容は

非英語DBを使用する際は
 ① 主解析には使用しない(感度解析に限定)
 ② 中国語だけじゃなく他の主要言語のDBも入れる
 ③ 非英語研究にはRoB評価に足る英語サマリーを付録につける

です。怒りに任せてちょっと攻めすぎかもしれませんが、少しは拾ってもらえるでしょうか?まぁさすがにどう忖度しても?rejectなんで査読は楽っちゃ楽…でもただrejectなのは申し訳ないので、建設的なコメントできるだけつけるのは苦行…多分ひびかないし。逆にeditorにこの査読者わけわかんない!と噛みつく輩までいる始末…

お手伝いしている雑誌で、観察研究を含めるSystematic review (SR)を査読をする機会があります。その度に、疫学を学んで一番ショックだった「観察研究は信頼できない」という事実を思い出します。

【観察研究の定義】
観察研究とは、既存のdataを観察して行う研究で、介入試験(≒RCT)以外の臨床研究すべてを指します。症例報告、カルテレビュー研究やコホート研究などはすべて観察研究です。

【なぜ観察研究は信頼できないか】
ある介入/要因があるA群と、ないB群のアウトカムを比較する研究を想定します。RCTでは(理論的には)A群もB群も似たような集団になります。しかし、観察研究ではA群とB群は必ず異なった集団になります。言い換えると、A群とB群には介入/要因の有無以外の特徴の差が生じ、その特徴の差が交絡して結果をゆがめます。なので、多変量解析などで特徴の差の影響を減らす必要がある。しかし、測定していない交絡(未測定交絡)や、測定しきれていない交絡(残余交絡)が必ず存在します。なので観察研究の結果は疑ってかからなければなりません。

【とくに信頼できない観察研究】
それは「介入の効果をみる」観察研究、すなわち、介入の有無(どちらの群に割付するか)を研究者が判断している研究です。その判断は臨床的理由かもしれませんし、結果をよくみせよう!と恣意的にしているかもしれません。後者が問題なのはもとより、前者も問題で、これを「適応交絡」といいます。

例えば、骨折患者に手術するかどうか?を決める際には、いろいろな情報を引っ張り出して、総合的にこの人には手術した方がいいな!と思えば手術を勧めるし、なしでしょ!と思えば勧めない。すると、手術する集団としない集団は、適応判断に必要な情報が大きく異なる集団になります。この集団の差が結果に及ぼす影響は、利用できるデータを駆使してもなくすことはできません。

なので、「介入の効果をみる」研究は(質が高い)RCT一択です。とはいっても、倫理的にもRCTが非現実的なことが多い。でも、だから観察研究でOK!というわけではなく、観察研究で仕方ないというだけです。結果は信頼できないことを念頭に慎重に解釈しなければなりません。

【それでも観察研究じゃないとだめな場合】
それは「リスク因子の影響をみる」研究です。なぜなら、リスク因子の有無はランダム割付できないからです。糖尿病があると心筋梗塞になりやすいか?パーキンソン病があると転倒しやすいか?などの臨床疑問は、RCTできないので観察研究で解決するしかない。ただ、あくまで結果は信頼できないことから始まって、どれだけ良いデザインになっているか?を考慮して慎重に解釈しなければなりません。

【まとめ】
長くなったので無理やりまとめますと、
 ・介入の効果をみる研究するなら必死になる
 ・RCTを頑張る
 ・観察研究してもだめじゃないけど…
  - 検定だけは×
  - 少なくとも交絡調整して、結果も控えめに
 ・RCTあるなら同じ疑問の観察研究はしない
 ・介入の効果をみるSRに観察研究は含めない
 ・リスク因子の影響をみるSRの対象は観察研究

という感じでしょうか。学べば学ぶほど、途方に暮れる毎日ですが、でも事実なんだから仕方ない。医学の進歩に少しでも貢献しようと思うと、避けては通れない事実です。

やはり臨床研究を頑張っている同門の先生から「システマティック・レビュー(SR)に挑戦することについてどう思うか?」とご相談があり。私としては是非やってみては?と思うのですが、なぜそう思うか書いてみます。

【SRの流れとご利益】
先日レビュー対象論文の紹介の記事でCochrane reviewについて書きましたが、SRには型があります。ざっくりまとめると

 ① PROSPEROに登録
 ② Protocol作成(Protocol論文発表)
 ③ Title/Abstractで一次スクリーニング
 ④ 本文で二次スクリーニング(包含研究決定)
 ⑤ データ抽出とRisk of Bias評価
 ⑥ 解析(メタアナリシス)
 ⑦ エビデンス総体のGRADE評価
 ⑧ 論文化

でしょうか。ズルできないように①②で事前に公表して、③-⑤や⑦も複数人でやって精度を高めると。ちゃんとやろうとすると相当手間がかかります。ただし、ご利益も大きい。ざっと挙げますと

 ・いい雑誌に載りやすい(引用されやすいので)
 ・勉強して真面目にやれば誰でもできる(はず)
 ・自分でdataもってなくてもできる
 ・ちゃんと文献検索ができるようになる
 ・ちゃんと文献の質の評価ができるようになる

などなど。とくに「文献検索」と「質の評価」は自分で論文書くときはもとより、論文読むときにも必須の技能。誤解を恐れずに述べますと、コレがちゃんとできる臨床医は相応レアです。なぜなら、普通に医学部でて臨床していても習得するチャンスがありませんから…というわけで、ぜったいblue ocean。

【なんちゃってSRの流れと害】
ちゃんとしたSRするのは(私のような凡人は)独学では不可能です。経験者に入ってもらわないと、まともなレビューは絶対できません。でもちょっとかじればズルするのは簡単。その手順は

 ① Protcolなんか作らない
 ② 方法の項はよくわかんないけどコピペ
 ③ key wordだけでさらっと検索
 ④ 複数にみせかけて独りでノリで論文抽出
 ⑤ バイアス評価しない(もしくは適当に採点)
 ⑥ RevManに数字入れて、よくわからないけどカッコいい図表作成
 ⑦ 論文化

で、本気出したら私でも1週間あれば1本書けます。ただ、なんちゃってSRやっちゃうと、誤った結果の公表になりかねず、「エビデンスを歪める可能性」がある。少なくとも「ちゃんとしたレビューする機会を奪う」ので、益どころか害です。そして悲しいかな世の中そんな「なんちゃってSR」ばかり。何ならS〇ineとか平気で載りまくりです。

【コメント】
とくに外科系臨床しながらSR勉強して実施するの(とくに私のような凡才には)至難の業ですが、乗り越える勇者が増えて、外科領域のEBMがもうちょっといい方向に向かっていくことを切に願います。といいながら、1年後に実績重視でなんちゃってSR出してたりして…いや、でも…

お手伝いさせていただいている某英語雑誌で、観察研究のメタアナリシス(MA)を査読する機会がありました。採否はさておき、そこでRisk of Biasの評価尺度について勉強しましたのでまとめておきます。私の理解の及ぶ範囲では、

 ROBINS-1 tool
 Newcastle-Ottawa Scale (NOS)

の2つが中心かと。今回は後者(NOS)が使用されていたので、NOSについて。ROBINS-1については京都大学片岡先生たちの資料に詳しいのでご参照ください。

NOSは英国通の同期の誉れが「OxfordではROBINSよりNOSっすね」と言っていたとおり、BMJ系の雑誌に多い気がします。妥当性を評価した研究などはぱっと渉猟した範囲でみあたらなかったので、これからの尺度なんでしょうか。評価シートは上記リンクから進めば取得できます。

内容はみていただければわかりますが、「CASE CONTROL STUDIES」スケールと「COHORT STUDIES」スケールがある模様。前者を使うことあるんだろうか?(←ちゃんとしたケースコントロール研究みたことないので)などと思いながら、コホート用をみてみます。内訳は

 Selection 1) ~4) の4質問 
 Comparaility 1)  の1質問
 Outcome 1) ~3) の3質問

の計8質問で構成されていて、各質問でどの回答を選択するかによって*Starの有無が決まっていて、*の合計数を得点として扱います。SelectionとOutcomeは回答1つのみで*は最大各4個と3個、Comparabilityは複数回答可で*は最大2個、なので合計*は0~9になり、7以上だと質が高いとの判定になる模様。その妥当性はさておき、使いやすそうな尺度ではありました。論文書くのに慣れたら、これ使ってMA量産できそう…

このページのトップヘ