二変量統計のまとめ

正規分布に従う変数XおよびYの差の検定はそれらの2変量が以下の公式および分布に従うことを利用して行う。変数が正規分布に従うか否かはコルモゴロフ-スミルノフ (Kolmogorov-Smirnov) 検定やシャピロ-ウィルク (Shapiro-Wilk) 検定等にて判断する。各変数に正規分布に従うと判断出来る場合、t検定は以下の4つの場合に分けることができる。まず、1.変数Xと変数Yに対応がある場合である。さらに、対応がない場合は、以下の3つに場合分けされる。ひとつ目は、2.変数Xと変数Yの母分散が既知の場合である。普通は検定対象の母分散だけが判っていることは極めて稀なので、これを考える機会は少ない。次が、3.変数Xと変数Yの分散が等しいと仮定できる場合である。これを実装したものがStudentのt検定と呼ばれる。最後が、4.変数Xと変数Yの分散が等しいとは仮定できない場合である。これを実装したものはWelchのt検定と呼ばれる。変数XおよびYの2変数に等分散性が仮定できるか否かは、F検定、ハートレイ (Hartley) の検定、バートレット (Bartlett) の検定およびルビーン (Levene) の検定等にて判断する。

まず、1のケースである、変数XとYに対応がある場合である。この場合は以下の統計量Tが自由度 n-1 のt分布に従うことを利用する。nは各変数のサンプルサイズ。

\begin{eqnarray*}T=\frac{\overline{x}-\overline{y}}{{u_{d}} \bigm / {\sqrt{n}}}\end{eqnarray*}

このとき、udは変数Xと変数Yの各サンプル間の差の不偏分散であり、以下の式で与えられる。ここで、diは変数Xと変数Yの各サンプルxiおよびyiの差であり、dはdi平均である。

u_d=\sqrt{\frac{1}{n-1}\displaystyle \sum_{i=1}^{n}(d_i-\overline{d})^2}

次に、2のケースである、変数Xと変数Yの母分散が既知の場合は、以下の統計量Tが標準正規分布 N(0, 12) に従うことを利用する。変数Xのサンプルサイズがn、母分散がσx2であり、変数Yのサンプルサイズがm、母分散がσy2である。

T=\frac{\overline{x}-\overline{y}}{\sqrt{\frac{\sigma_x^2}{n}+\frac{\sigma_y^2}{m}}}

次に、3のケース、変数Xと変数Yの分散が等しいと仮定できる場合、すなわち、変数Xと変数Yが等分散である場合は、以下の統計量Tが自由度 n+m-2 のt分布に従うことを利用する。

T=\frac{\overline{x}-\overline{y}}{\sqrt{(\frac{1}{n}+\frac{1}{m})u_{xy}^2}}

ここで、uxy2は以下の式で与えられる値である。nおよびmはそれぞれ変数XおよびYのサンプルサイズであり、ux2およびuy2は変数XおよびYの不偏分散である。

u_{xy}=\frac{(n-1)u_x^2+(m-1)u_y^2}{n+m-2}

最後に、4のケースである、変数Xと変数Yの分散が等しいとは仮定できない場合、すなわち、変数Xと変数Yが等分散であるとは仮定できない場合は、以下の統計量Tが自由度 l のt分布に従うことを利用する。

T=\frac{\overline{x}-\overline{y}}{\sqrt{\frac{u_x^2}{n}+\frac{u_y^2}{m}}}

ここで、自由度 l は以下の式で与えられる。得られる値が整数でない場合は四捨五入する。

l=\frac{(\frac{u_x^2}{n}+\frac{u_y^2}{m})^2}{\frac{u_x^4}{n^2(n-1)}+\frac{u_y^4}{m^2(m-1)}}
このエントリーをはてなブックマークに追加

Site search

ページのトップへ戻る