雑な統計は嘘をつく。 科学的デマ「ラドンでホルミシス」から謎理論「PCR検査が少ない国ほど死亡者数が少ない」まで

Cohenが見逃していた「交絡因子」喫煙

 さて、では何が原因で図2と図3は真逆の傾向になったのだろうか? それはCohenが重要な交絡因子を見逃していたためだ。「交絡因子」とは、ラドン被ばく以外に肺がんの発生や死亡の原因となる因子のことだ。そのような因子(や因子の候補)は幾つか知られているが、そのうち最もよく知られているのは喫煙だろう。喫煙が喫煙者の肺がんリスクを上げることや、喫煙者の近くで受動喫煙させられた人の肺がんリスクまでをも上げることは、すでに沢山の調査で証明されている。  ラドン濃度と肺がん死亡率の数値を「ただ並べただけ」のCohenのグラフには、ラドン被ばくの影響だけでなく、喫煙の影響までもが入ってしまっているのだ。上述したcase-control studyなどの高精度な疫学手法では、喫煙を含む様々な交絡因子までを調べ上げ、グラフや解析結果に交絡因子の影響が表れないようにする(いわゆる、交絡因子の調整)。そのようにして、ラドン被ばくが持つ影響だけを見られるようにしているのだ。  米国では、ラドン濃度の低い都会で喫煙率が高く、ラドン濃度が高い田舎で喫煙率が低い傾向があった。さらに、喫煙が肺がんの発生や死亡に与える影響の大きさは、ラドン被ばくのそれよりだいぶ大きいことが分かった。そのため、喫煙の影響を排除しない雑な方法でグラフを描くと、図2のように、ラドン濃度の低い地域で死亡率が高く、ラドン濃度が高い地域で死亡率が低いという傾向になってしまうのだ。  このように、交絡因子についてきちんと考え、その影響を適切に排除することは疫学統計にとって極めて重要なことであり、そして、交絡因子の扱いを疎かにすると、酷い誤解を作り出してしまうことすらあるのだ。なお、そのようにして作られた“誤解”を専門用語で「ecological fallacy」、日本語では「生態学的誤謬」あるいは「生態学的錯誤」という。

改めて、池谷教授が示した雑な統計の問題点

 さて、ここで再び池谷教授のグラフ(図1)に戻ろう。このグラフを見るに、これは「PCR検査数」と「死亡者数」を使って単純にデータを並べただけの、交絡因子をまったく考慮していないものだろう。そう、きっとCohenが示した雑なグラフ(図2)と同様の描き方がされたものに違いない。すると、Cohenの場合と同様に、大きな誤解を招くグラフになっている可能性がある。  新型コロナ死亡者数の場合に考えられる交絡因子は何だろうか? 筆者がすぐに思い付くだけでも次のような沢山の因子が考えられる:  各国の人口の年齢分布の違い、特に高齢者の割合(新型コロナは高齢者ほど重症化しやすく、死亡しやすい)、人口の男女比の違い、人口密度の違い、感染蔓延が始まった時期の違い、PCR検査を始めた時期の違い、検査数の時間的な変化、PCR検査体制の充実度の差、握手・抱擁・キスなどの習慣の違い、人種の差、上陸した新型コロナウイルスの遺伝子的な違い、各国の裕福度・GDP(国内総生産)の差、医療技術の発展度の差、医療施設の充実度の差、特に集中治療室ICUや高性能人工肺ECMOの保有率の違い、健康保険制度の有無、死亡者数の把握精度の違い、各国で取った新型コロナ対策の違い、対策を取り始めたタイミングの差、その他もろもろ。  はたして、これらの交絡因子をきちんと考慮したら、どのようなことが分かってくるだろう?  この件に関連して、「えくすわいえくす / xyx」さん(Twitter ID: @xyx_is)が行った有益なグラフ化を紹介しよう。これは池谷教授がTBSの番組に出演した次の日(5月10日)にTwitter上に示されたものだ。  まず興味深いのは以下の図だ(図4)。これは各国のPCR検査数(100万人あたり)と、1人当たりのGDPの関係を見たグラフだ。これを見ると、GDPとPCR検査数は大雑把に言って正比例関係にあり、GDPが高い、裕福な国ほど沢山の検査を行っている傾向があることが分かる(ただし、GDPが40,000 USD程度ある日本は、オレンジ色の比例直線から下に大きく外れてしまっている)。
図4.GDPとPCR検査数

図4.GDPとPCR検査数。横軸は各国の人口1人当たりのGDP [USD]、縦軸は各国のPCR検査数(100万人あたり)を表す。

 GDPとPCR検査数がおよそ正比例関係にあるということは、池谷教授が示したグラフ(図1)の横軸を「PCR検査数」から「GDP」に入れ替えても、似たような傾向のグラフを作ることができることになる。実際に「えくすわいえくす / xyx」さんが試してみたのが以下の図だ(図5)。予想通り、GDPと死亡者数がおおよそ正比例する格好になっている。  これを見たままに解釈してしまうと、「GDPが高い裕福な国ほど沢山の人が死ぬ」という、何とも奇妙なことになってしまう。池谷教授のグラフを見たままに解釈してしまったときの「PCR検査が少ない国ほど死亡者数が少ない」と同じくらい奇妙なことだ。
図5.GDPと死亡者数

図5.GDPと死亡者数。横軸は各国の人口1人当たりのGDP [USD]、縦軸は各国の新型コロナによる死亡者数(100万人あたり)を表す。

 これらの結果は、GDPが1つの交絡因子になっているだろうこと、そして、より多くの関わる交絡因子をしっかりと考慮しないかぎり、意味のある、現実的な知見は得られないだろうことを意味している。データを「ただ並べただけ」ではダメなのだ。

雑な統計で嘘をつかないために

 ラドン被ばくの例で見たように、“雑な統計”で世の中に誤解を広めないようにするには、雑な統計は行わない、あるいは、どうしても統計を行うなら、交絡因子までをきちんと考慮した、意味のある結果が出る解析を行う必要がある。そして、もしもそれが出来ないのであれば、まずは先達たちの知恵に頼るべきだろう。  PCR検査についての先達たちの知恵、それは、台湾・韓国・ニュージーランド・オーストラリア・ベトナムなどの新型コロナの封じ込めに成功している国々が、封じ込めの過程でPCR検査を非常に重視し、豊富に実施してきたこと、そして、初動対応に遅れた英国や米国などが、必死にPCR検査の体制拡充を図ってきたことだ。とりわけ学者や研究者らは、雑な統計を行って示す前に、そういった先達たちの知恵に真摯に向き合い、学ぶべきだ。そこには池谷教授が示したような“雑な統計”が割り込むすき間は、全くないのだ。 <文/井田真人> 参考文献 [1] B. L. Cohen, “A test of the linear-no threshold theory of radiation carcinogenesis,” Environmental Research (1990) [2] B. L. Cohen, “Test of the linear-no threshold theory of radiation carcinogenesis for inhaled radon decay products,” Health Physics (1995) [3] S. Darby et al., “Radon in homes and risk of lung cancer: collaborative analysis of individual data from 13 European case-control studies,” BMJ (2004) [4] J. H. Lubin et al., “Risk of lung cancer and residential radon in China: pooled results of two studies,” International Journal of Cancer (2004) [5] D. Krewski et al., “Residential radon and risk of lung cancer: a combined analysis of 7 North American case-control studies,” Epidemiology (2005) [6] UNSCEAR 2006, Annex E. “Sources-to-effects assessment for radon in homes and workplaces” (2009) [7] ICRP publication 115, “Lung cancer risk from radon and progeny and statement on radon” (2010) [8] WHO handbook on indoor radon: a public health perspective (2009)
いだまさと● Twitter ID:@miakiza20100906。2017年4月に日本原子力研究開発機構J-PARCセンター(研究副主幹)を自主退職し、フリーに。J-PARCセンター在職中は、陽子加速器を利用した大強度中性子源の研究開発に携わる。専門はシミュレーション物理学、流体力学、超音波医工学、中性子源施設開発、原子力工学。
1
2