スチューデントのt検定

スチューデントのt検定 (Student t-test) とはパラメトリック検定のひとつである。t検定はデータXおよびデータYの2つのデータ間の平均値に差があるかどうかを検定する方法であるが、スチューデントのt検定は特に、2つのデータ間に対応がなく、かつ2つのデータの分散に等分散性が仮定できるときに用いる方法である。検定名にある 'スチューデント' とは、開発者であるゴセット (William Sealy Gosset) が論文執筆時に用いていたペンネーム 'Student' に由来する。

2つのデータ間の比較を行う場合にはいくつか注意を払うべき点がある。まずは、データ間の対応の有無について考えなければならない。データ間の対応の有無とは、例えば以下のようなものである。ある学年のあるクラスで実施した数学のテスト結果をデータAとする。そのクラスに対し数学のドリルによる計算練習を一定期間与えた後に再度、同程度のレベルの数学のテストを受けさせ、得られたテスト結果をデータBとする。この場合の、データAおよびデータBの間には対応がある。一方で、ある学年の別のクラスで実施した数学のテスト結果をデータCとする。このデータCとデータAを比較するとき、これらのデータ間には対応がない。すなわち、2つのデータが同一標本から得られた場合を対応があるといい、別々の標本から得られた場合を対応がないという。データ間に対応があるかないかによって用いる検定法が異なってくる。次に、データの正規性、すなわち、得られたデータが正規分布に従うかどうかについて考える必要がある。変数が正規分布に従うか否かはコルモゴロフ-スミルノフ (Kolmogorov-Smirnov) 検定やシャピロ-ウィルク (Shapiro-Wilk) 検定等にて判断することができる。最後に考慮すべき点に、2つのデータの分散の等分散性が挙げられる。等分散性は、F検定、ハートレイ (Hartley) 検定、バートレット (Bartlett) 検定およびルビーン (Levene) 検定等にて判断することができる。ただし、これらの正規性の検定や等分散性の検定は2群間の検定をする前に実行すべきでないことも指摘されている。これは、t検定を繰り返すことが正しくないことと同様に、検定を繰り返すことになるからである。

以上の項目を確認して、2つのデータ間に対応がなく、各々の分布に正規性および等分散性が仮定できるとき、スチューデントのt検定を行う。サンプルサイズN1およびN2のデータXおよびYの平均値の比較は以下のように行う。

データXX1, X2, X3, ..., XN1
データYY1, Y2, Y3, ..., YN2

まず、以下の統計量Tを求める。ここで、μXおよびμYはそれぞれデータXおよびデータYの母平均である。

\begin{eqnarray*}T=\frac{(\overline{X}-\overline{Y})-(\mu_X-\mu_Y)}{\sqrt{(\frac{1}{N_1}+\frac{1}{N_2})U_{XY}^2}}\end{eqnarray*}

ここで、UXYは以下で与えられる値である。

U_{XY}=\frac{(N_1-1)U_X^2+(N_2-1)U_Y^2}{N_1+N_2-2}

以上で与えられる統計量Tは自由度 N1+N2-2 のt分布に従う値である。ここで、検定の帰無仮説 (H0) を立てる。帰無仮説 (H0) は2群間の平均値に差がないこと、すなわち "μXY=0であること" である。そこで、μXY=0 を上の式に代入し、以下のTを得る。

T=\frac{\overline{X}-\overline{Y}}{\sqrt{(\frac{1}{N_1}+\frac{1}{N_2})U_{XY}^2}}

この統計量Tが、自由度 N1+N2-2 のt分布上にてあらかじめ設定した棄却域に入るか否かを考える。以上がスチューデントのt検定であるが、実際の活用にはRを用いた計算が簡単である。

このエントリーをはてなブックマークに追加

Site search

ページのトップへ戻る