検定方法の選択 1|パラメトリックとは?
- Manabu
- 2017年7月19日
- 読了時間: 2分
実験データを統計的に処理する場合、検定法の選択が重要であるが、一体どれを選んだらいいかよく分からない研究者が多いのでは?
有名なt検定ならなんとなくわかるけど・・・
比較対象が3つ以上ある場合でも、t検定を繰り返せばいいじゃん!と言う人に向けた解説です。
(注:間違ってるかもしれないので、インターネット上の記事の内容を鵜呑みにしないこと)
統計手法を選ぶにあたって、次の4つのことを気にする必要があるらしい。
1、検定に用いるデータ(の母集団)が正規分布しているか
2、対応のあるデータか
3、群数が2か?3以上か?
4、関わる要因が1つか?二つか?(群数が3以上の場合)
1、検定に用いるデータ(の母集団)が正規分布しているか
これはよく統計の教科書でパラメトリックかノンパラメトリックかと書かれているが、日本語でいうと正規分布しているかどうかです。
パラメトリック = 正規分布するデータ
実際は母集団のデータの分布がわからないので、ノンパラメトリックを選んでおけば間違いないが、F検定をすることで、自分の持つデータの母集団のデータが正規分布するかどうかを推定できる。
じゃあパラメトリックの何がいいかというと、検定をかけた時に、パラメトリックの方が、有意差が出やすいことである。
2、対応のあるデータか
同じサンプルかどうかという意味。
生化学実験などでは、たいていの場合対応がないデータ。
・対応のあるデータの例
やコウタケの発光量を測定し、その後霧吹きで水をかけ、1時間後に再び発光量を測定する。
・対応のないデータの例
八丈島産のやコウタケと小笠原諸島産のヤコウタケの発光量
2群間比較の場合はほとんどが対応のないデータになると思う。なぜなら、2群間で対応がある場合は、コントロールがきちんと取れていないからだ。
例えば、被験者1億人に「ご利益のある水」をコップ1杯飲ませ、前後に被験者の幸福度を測定する。(例えばアンケートで100点満点中の自己評価など、なんでもいい)
するとおそらく大抵の人は喉の渇きが癒されて幸福度は上がるだろう。(喉が乾いてない人は幸福度に変化はないが、多分全員ではないだろう。)
そして、対応のある2群での検定「paired t test」を行うと、「ご利益のある水」を飲むと幸福度が上がることが有意に示される。
ただし、ここで、注意すべきは、ただの水やお茶など対照となる系(コントロール)と比較すべきとだということがよくわかると思う。
子供が暴れてきたので、3、以降については、次回のブログに書きます。