重回帰分析の落とし穴

 重回帰分析という統計学的分析手法があります。

 たとえば、褥瘡の発生確率を判定するスケールを作るのに使ったりします。

 いろいろな変数(たとえば、褥瘡評価では、周囲の赤み、湿潤の程度、肉芽の色、盛り上がり具合などの因子を数値にしたものです)をコンピュータに入れると、それぞれの因子の相関関係を計算します。

 そして、相関関係の高いものは、どちらか一方で、間に合うとして、評価項目からはずしていきます。


 このようにすると、他のものでまかなえない大事な項目だけが残ってきます。

 ところが、ここでも不思議なことが起こります。

 最初に、A、B、C、D、Eの項目があって、重回帰分析をしたら、最初にEが消え、つぎにDが消え、その後Cが消えて、最後にAとBだけ残ったとします。

 「それじゃあ、最初からEは抜いて計算しよう」とすると、今度は、BとCだけ残ったりするのです。

 重回帰分析の結果は流動的です。恣意的に操作可能です。

 このような問題点を調整して、残された項目で、褥瘡の発生の程度を表す数式を作れば、蓄えたデータについてだけ、どの因子が作用して褥瘡になったかという説明ができます。


 重回帰分析のポイントは「過去のデータを説明できる」ことです。

 けっして、予測を保証するものではありません。

 将来のデータは、この重回帰分析の中に入っていないのです。

 従来のデータにない症例に遭遇した場合、この重回帰分析は必ずはずれます。

 そうすると、できるだけ多くのデータを集めて、将来のデータの範囲をカバーしたいと思うでしょう。

 ところが、時間の経過とともに、患者さんの置かれている環境は変わります。

 褥瘡についてでも、2000年と現在では、年齢、栄養投与手段、医療費、エア・マットレスの値段、褥瘡に対する理解、その他多くのことが変化しています。

 その「変化」のために、過去のデータは「参考値」にしかなりません。

 また、褥瘡の発生を予測しようとする施設は、その熱意がデータを修飾します。

 それだけでも、普遍性はなくなります。

 では、どうすれば、「科学的」になるのでしょう?
寄り道 疫学調査研究手段について
いよいよ、「科学的」について考える