論考記事エビデンスヒエラルキーの盲点と外的妥当性

ホーム > 論考記事 > 論考記事エビデンスヒエラルキーの盲点と外的妥当性

要旨

SNS上では、エビデンスレベルの高い論文を盾に、現場の経験則を「非科学的」と断罪する光景が散見されます。しかし、研究室で確立された「平均の真実」は、無数の変数が絡み合う現場において、必ずしも「個人の正解」を保証しません。
本稿では、「内部妥当性(実験の厳密さ)」と「外的妥当性(現場での機能性)」の緊張関係という視点から、エビデンスヒエラルキーを再評価します。その上で、科学的知見を現場で活かすための「翻訳」と「仮説生成」の作法を論じます。

本稿の射程

本稿が想定する読者は、健康なクライアントを対象とするパーソナルトレーナー、および自身の身体運用に関心を持つトレーニーです。

本稿は特定の疾患に対する医療的ガイドラインではありません。診断や治療を目的とせず、現場における意思決定の設計思想を扱います。特に、研究環境で得られた知見を、複雑な変数が絡み合う生活現場へ適用する際に生じる「外的妥当性」の問題と、その翻訳プロセスについて論じます。
なお本稿は、科学的知見そのものの妥当性を問うものではありません。科学的な「正解」を、文脈の異なる現場へ持ち込む際に生じる「運用のエラー」のみを論点とします。

はじめに:その「正解」は誰のものか

「その指導にエビデンスはあるんですか?」「RCT(ランダム化比較試験)がないなら、それは個人の感想ですよね」

SNSのタイムラインを開けば、今日もどこかで、論文を権威の代替物として運用し、現場のトレーナーを批判する一部の言説が目に入ります。そこには、PubMedのリンクが貼られていない情報を軽視し、ピラミッドの頂点にあるメタアナリシスだけを、あたかも唯一の判断基準であるかのように扱う人々が少なからず存在します。

しかし現場では、違和感が残ります。SNS的な運用のもとでは、「科学的正しさ」が目の前のクライアントの現実と噛み合わない局面が生まれます。
この齟齬の多くは、EBMピラミッドの理解が「序列の図」として誤って流通してしまったことに起因します。

本稿の目的は、「実験室の真実」を「現場の現実」に持ち込む際に発生する、致命的な適用エラーの正体を突き止めることです。必要なのは、エビデンスを正しく疑い、賢く使い倒すための「武器」を手にすることです。

第1章 研究室と現場の決定的な「乖離」

科学研究、特に因果関係を証明したい研究者が最も憎むもの。それは「ノイズ(雑音)」です。
「あるサプリメントの効果」を証明したい時、被験者の睡眠時間がバラバラだったり、上司からのパワハラを受けていたりしては、正確なデータが得られません。だから研究者は、「研究室」という閉ざされた環境を作り出し、変数を極限まで排除します(注1)

厳密性が生む「平均の罠」

ここでは、内部妥当性こそが絶対です。「結果の差は、間違いなく介入によって起きた」と言い切れる厳密さ。これこそが論文の価値であり、ヒエラルキーの高さを決定づけます。

しかしトレーナーが立っているのは研究室ではなく、変数が絡み合う「現場」です。
温度や湿度が管理され、均一な食事が支給される実験室ではありません。急な残業、理不尽なクレーム対応、突発的な飲み会、子供の夜泣きによる睡眠不足、個人の味覚、経済的不安……。無数のノイズが入り乱れる「複雑な現実」、いわばジャングルです。

理想的な「効力」と、現実での「実効性」

ここで決定的な区別が必要になります。理想的な条件下での「効力」と、現実世界での「実効性」の違いです[1][3]
その延長線上に「意思決定に資する研究とは何か」という問いが生まれ、現場の条件を取り込んだ研究設定(practical clinical trials や pragmatic trials)の重要性が提起されています[2][3]

研究室の研究が無価値だと主張したいのではありません。メカニズムの理解には、ノイズを排除した研究室の知見が不可欠です。ただし、統計学的に導き出された「平均値の真実」は、あくまで「被験者集団の平均」にすぎません。

目の前のクライアントは、その論文の被験者と同じように規則正しい生活をしていますか? 同じ遺伝的背景を持っていますか?
もしそうでなければ、論文の結論をそのまま押し付けることは、科学的態度ではなく、単なる「思考停止」です。

統計学的にも、RCTが示すのは多くの場合「集団における平均的な介入効果」です。ですが現場で問題になるのは、平均そのものより、同じ介入でも“効き方が人によって変わる”という点です。
睡眠、ストレス、生活の制約、嗜好――こうした条件が違えば、結果は簡単に別物になります。だから現場指導者がやるべきことは、平均をゴールにすることではありません。平均を出発点にして、目の前のN=1(注2)に合わせて条件を見立て、試し、反応を見て調整し続けることです。

第2章 外的妥当性と現場再現性の再評価

論文を読む際、つい「内部妥当性(実験は正確か?)」ばかりに視線が寄ります。しかし現場の実践者にとっては、もう一つ決定的に重要な指標があります。それが外的妥当性(および生態学的妥当性)――別の言い方をすれば、適用可能性です(注3)

これは平たく言えば、「そのメソッドは、泥臭い日常の中で生き残れるか?」という問いです。
同じ介入でも、生活環境の制約を含めて現実の条件に移した瞬間に、強度が変わることがあります。現場で問われるのは、理想条件での“正しさ”そのものではなく、移植したときに「成立しうる形」で残るかどうかです。

「厳密さ」と「現場での使いやすさ」のトレードオフ

厄介なのは、研究デザインにおいて、内部妥当性(因果推論の厳密さ)と外的妥当性(現実条件への適用可能性)がしばしば緊張関係に置かれる点です[4]

実験環境を厳密に統制すればするほど、その環境は現実世界から乖離していきます。「入院環境下での厳密な糖質制限」のエビデンスが、毎晩の会食が避けられないビジネスパーソンの指導において無力なのは、このためです。

研究知見の「現場再現性」という壁

「論文通りにやったのに結果が出ない」と嘆くトレーナーは、自身の指導力不足を疑う前に、参照しているエビデンスの外的妥当性(適用可能性)を疑うべきです。

研究における有意差は、「この設計とこの前提のもとでは、観測された差を偶然だけで説明しにくい」という統計上の合図(シグナル)にすぎません。そこから自動的に、効果の大きさや現場での意味(継続可能性・副作用・費用対効果)まで付与されるのではありません。
加えて、現実世界で介入が「機能する」とは、効果だけで決まる話でもありません。採用や定着といった視点を含めた「実装」の概念が必要になります(RE-AIMなどの枠組みがこれを示唆しています[11][12])。

相手にしているのは、マウスでも平均値でもなく、感情と生活を持った生身の人間です。新作のフラペチーノの誘惑に抗えず、ストレスでドカ食いをしてしまうような、人間という「ノイズだらけのシステム」に対して、そのエビデンスは本当に機能するのか? その冷徹な眼差しこそが求められています。

第3章 エビデンス階層の二軸評価モデル

科学的根拠に基づく医療(EBM)を語る場面で、しばしば引き合いに出される「階層図」があります。通俗的にはピラミッドとして描かれ、頂点にメタアナリシスが置かれる、あの図です。
ただし、エビデンスの確実性や推奨の強さを扱う枠組み(GRADE)のように、単純な序列図とは異なる整理も存在します[6]

誤解のないように言えば、EBMそれ自体は「論文の序列を振りかざす思想」ではありません。本来のEBMは、最良の研究知見だけでなく、臨床(現場)の専門性と本人の価値観・生活条件を統合して意思決定する、きわめて実務的な設計思想です[5]。筆者が批判したいのは、EBMの理念ではなく、その外皮だけを切り取って「ピラミッドの高さ=正しさ」と短絡する、SNS的な運用の劣化形です。

縦軸(因果の強さ)と横軸(適用可能性)による座標評価

エビデンスを評価する際に、ピラミッドを縦に登る――より高いエビデンスレベルを求める――ことだけに執着しがちです。しかしそこにもう一本の軸、すなわち横軸を引く視点が必要です。縦軸が内部妥当性(実験としての正確さ・因果の強さ)を表すなら、横軸は外的妥当性(現実の条件に移したときの適用可能性)を表します。

重要なのは、この横軸が「気分」や「印象」ではなく、研究の設計特性に即して語られるべき点です。
実際、研究の世界でも、PRECIS-2のようなツールを用いて、「この研究はどれくらい現実に即しているか?」を可視化しようとする試みがあります[9][10]。これらは本来研究者のための設計ツールですが、現場実践者にとっても、参照する研究がどの程度「現実の条件」を織り込んで組まれているのかを読み解くレンズとして有用です。

要するに、エビデンスは登るべきピラミッドではありません。因果の強さ(縦)と現実条件への適用可能性(横)という二軸平面上で読むべき「座標情報」です。情報を「正誤」だけで裁くのではなく、使えるか使いにくいかという天秤にかけて位置を見極める。そのプラグマティックな姿勢こそが、専門家(プロ)の証です。

観察研究における「現場リアリティ」の優位性

観察研究は、この「横軸」において圧倒的な強みを持つ場合があります[7][8]。そこには、RCTが排除してしまった「現場のリアリティ(合併症、生活の乱れ, モチベーションの波)」がそのまま保存されているからです。
現場ではさらに、研究知見とは別に、目の前のN=1の観察から仮説を立て、試し、更新するという作業も求められます。

第4章 専門職の役割:翻訳と介入設計

科学的知見(論文)と現場指導の関係性は、「地図」と「現地」の関係に似ています。
地図(論文)は、地形を抽象化し、正確な縮尺で描かれた極めて有用なツールです。しかし、最新の地図であっても、「今、目の前にある水たまり」や「突然の落石」までは描かれていません。

「地図」から「現地ルート」への変換

「地図にはここに道があると書いてある!」と主張し、目の前の崖(クライアントの現状)を無視して進めば、待っているのは事故だけです。地図を信頼しつつも、現地の状況を優先すべきです。地図だけを信じて崖から落ちてはいけないのです。

例えば、二つのプログラムを比較してみましょう。一つは、厳密な条件下で短期成果「100」が見込めるが、キツすぎて続かないプログラムA。もう一つは、成果は「70」でも、ストレスなく生活に組み込めるプログラムBです。
研究室的な基準ではAが優れて見えますが、現場では継続できなければ成果は積み上がりません。瞬間の強度より、生活の中で回ることが、長期の到達点を決める局面が確かにあります。

「翻訳」と「意思決定ループ」の設計

論文に書かれている言葉(研究室の言語)を、そのまま現場に持ち込む行為は、コミュニケーションの放棄に等しい。
有意差、p値、信頼区間……。これらの言葉は、研究者間の共通言語であっても、クライアントの心を動かす言葉ではありません。

現場指導者に求められるのは、高度な専門知識を、クライアントの生活実感に基づいた言葉へと変換する翻訳能力です。「この研究では筋合成率が〜」と語るのではなく、「この方法なら、忙しい残業の後でも無理なく続けられますよ」と語ることです。

翻訳とは、単なる“言い換え”ではありません。論文が示す一般則を手がかりに、目の前のN=1に対して「どの条件なら働きそうか」と作業仮説を立て、負担の小さい形で試し、反応を見て更新する。
現場指導者は、研究知見を材料に、クライアントの生活の中で回る意思決定ループを設計する人間なのです。

結語

エビデンスヒエラルキーの理解は、職業人としての必須教養です。しかしそれを盲信し、ピラミッドの頂点にあるデータだけを正解として振りかざすならば、目の前のクライアントという生々しい現実を軽視することに他なりません。

研究者と実践者の間に、上下関係はありません。あるのは、真理を探究するために純度を高める役割と、その真理を混沌とした現実に適応させる役割——機能的な分担だけです。

科学の限界を知ることは、科学の否定ではありません。それは、科学が最も力を発揮する領域と、科学だけでは届かない領域を見極め、適材適所で使いこなすこと——科学に対する成熟した敬意の形です。あえて言えば、「知的な愛」と呼ぶべきものかもしれません。

現場指導者の役割は、論文という地図を片手に持ちながらも、目の前の現地を直視し、クライアントと共に歩めるルートを切り拓くことです。時には地図にない道を行く勇気も必要でしょう。
ただしその勇気は、「地図にない道なら、何でもあり」ではありません。観察から仮説を立て、負担の小さい形で試し、反応を見て更新し続ける。その勇気ある手続きこそが、AIにも論文にも代替できない、人間としてのトレーナーの核心的価値なのです。

注記

(注1)「研究室」という表現について:本稿では、外乱(ノイズ)を減らすために条件が強く統制された環境、という意味の比喩として用いています。必ずしも物理的な研究施設のみを指すものではありません。

(注2)N=1:本稿では「現場における個別事例の観察/実装」を指し、試験デザインとしてのN-of-1 trialとは区別して用います。

(注3)外的妥当性と生態学的妥当性:厳密には、研究結果を他の集団に一般化できるかを問う「外的妥当性(External Validity)」と、実験室の設定が現実世界の条件にどれだけ近いかを問う「生態学的妥当性(Ecological Validity)」は区別されます。本稿では、現場への適用可能性という実務的な観点から、両者を包括的な概念として扱っています。

参考文献

[1] Schwartz D, Lellouch J. Explanatory and pragmatic attitudes in therapeutical trials. J Chronic Dis. 1967;20(8):637-648. DOI: 10.1016/0021-9681(67)90041-0. PMID: 4860352. URL: https://pubmed.ncbi.nlm.nih.gov/4860352/

[2] Tunis SR, Stryer DB, Clancy CM. Practical clinical trials: increasing the value of clinical research for decision making in clinical and health policy. JAMA. 2003;290(12):1624-1632. DOI: 10.1001/jama.290.12.1624. PMID: 14506122. URL: https://pubmed.ncbi.nlm.nih.gov/14506122/

[3] Ford I, Norrie J. Pragmatic trials. N Engl J Med. 2016;375(5):454-463. DOI: 10.1056/NEJMra1510059. PMID: 27518663. URL: https://pubmed.ncbi.nlm.nih.gov/27518663/

[4] Greenhalgh T, Papoutsi C. Studying complexity in health services research: desperately seeking an overdue paradigm shift. BMC Med. 2018;16(1):95. DOI: 10.1186/s12916-018-1089-4. PMID: 29921272. URL: https://pubmed.ncbi.nlm.nih.gov/29921272/

[5] Sackett DL, Rosenberg WM, Gray JA, Haynes RB, Richardson WS. Evidence based medicine: what it is and what it isn’t. BMJ. 1996;312(7023):71-72. DOI: 10.1136/bmj.312.7023.71. PMID: 8555924. URL: https://pubmed.ncbi.nlm.nih.gov/8555924/

[6] Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, Schünemann HJ; GRADE Working Group. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336(7650):924-926. DOI: 10.1136/bmj.39489.470347.AD. PMID: 18436948. URL: https://pubmed.ncbi.nlm.nih.gov/18436948/

[7] Concato J, Shah N, Horwitz RI. Randomized, controlled trials, observational studies, and the hierarchy of research designs. N Engl J Med. 2000;342(25):1887-1892. DOI: 10.1056/NEJM200006223422507. PMID: 10861325. URL: https://pubmed.ncbi.nlm.nih.gov/10861325/

[8] Black N. Why we need observational studies to evaluate the effectiveness of health care. BMJ. 1996;312(7040):1215-1218. DOI: 10.1136/bmj.312.7040.1215. PMID: 8634569. URL: https://pubmed.ncbi.nlm.nih.gov/8634569/

[9] Thorpe KE, Zwarenstein M, Oxman AD, Treweek S, Furberg CD, Altman DG, et al. A pragmatic-explanatory continuum indicator summary (PRECIS): a tool to help trial designers. CMAJ. 2009;180(10):E47-E57. DOI: 10.1503/cmaj.090523. PMID: 19372436. URL: https://pubmed.ncbi.nlm.nih.gov/19372436/

[10] Loudon K, Treweek S, Sullivan F, Donnan P, Thorpe KE, Zwarenstein M. The PRECIS-2 tool: designing trials that are fit for purpose. BMJ. 2015;350:h2147. DOI: 10.1136/bmj.h2147. PMID: 25956159. URL: https://pubmed.ncbi.nlm.nih.gov/25956159/

[11] Glasgow RE, Vogt TM, Boles SM. Evaluating the public health impact of health promotion interventions: the RE-AIM framework. Am J Public Health. 1999;89(9):1322-1327. DOI: 10.2105/ajph.89.9.1322. PMID: 10474547. URL: https://pubmed.ncbi.nlm.nih.gov/10474547/

[12] Proctor EK, Silmere H, Raghavan R, Hovmand P, Aarons GA, Bunger A, et al. Outcomes for implementation research: conceptual distinctions, measurement challenges, and research agenda. Adm Policy Ment Health. 2011;38(2):65-76. DOI: 10.1007/s10488-010-0319-7. PMID: 20957426. URL: https://pubmed.ncbi.nlm.nih.gov/20957426/

付記

本稿は、パーソナルトレーニングジムPriGymにおける指導指針および意思決定の設計思想を言語化したものです。特定の疾患に対する医学的助言や診断を目的とするものではなく、健康なクライアントを対象とした指導現場における論点整理を主眼としています。

末岡 啓吾

末岡 啓吾

パーソナルトレーニングジム「PriGym」代表トレーナー。
博士(理学)・NSCA認定トレーナー・パワーリフティング元日本記録保持者。
科学と実践の両軸で、一人ひとりの成長を支えます。