標準化

統計学における標準化 (standardization) とは、与えられたデータを平均が0で分散が1のデータに変換する操作のことをいう。特に、任意の正規分布に従うデータXを標準正規分布 (μ=0かつσ2=1の正規分布) に従うデータに変換するために用いられる場合が多い。データXの各データを標準化して得られる標準化変数 (標準得点) はそれぞれが標準正規分布に従う。このようなデータ変換を行う理由のひとつは、元のデータの分布上より標準正規分布のような素性が明らかな分布上でデータを議論するほうが便利で簡単になるからである。標準化は以下のように各データ xi から平均 μ を引き、その値を標準偏差 σ で割ることで達成される。

z_i=\frac{x_i-\mu}{\sigma}

以上の操作にて xi を標準化して得られた標準化変数 zi が標準正規分布に従うことは以下の2つの公式から理解することができる。まず一つ目は以下の平均値に関するものである。この式は、データXの各データに定数aを加えたデータの平均値はデータXの平均値に定数aを加えたものになることを示す。

E(X+a)=E(X)+a

二つ目は分散および標準偏差に関する以下の式である。この式は、データXの各データを定数k倍したデータの分散はデータXの分散のk2倍になる、ということを示している。標準偏差の場合は、データをk倍したとき、新たなデータは元の標準偏差の|k|倍となる。

V(kX)=k^2V(X),\ D(kX)=kD(X)

正規分布 N(μ, σ2) に従うデータXを考えた場合、平均値の式に関して、データXからその平均値 μ を引いて得られる新たなデータの平均値は以下のようになる。

E(X-\mu)&=&E(X)-\mu\\&=&\mu-\mu\\&=&0

すなわち、平均値 μ の正規分布に従うデータXからその平均値 μ を引いた新たなデータが従う正規分布の平均値は 0 になる。次に、標準偏差の式に関して、データXをその標準偏差σで割った新たなデータの標準偏差は以下のようになる。

E(X+a)=E(X)+a

すなわち、標準偏差 σ の正規分布に従うデータXをσ分の1倍した新たなデータが従う正規分布の標準偏差は 1 になる。以上2つを併せることで、任意の正規分布に従うデータからその平均値 μ を引いて、その値をσ分の1した新たなデータは標準正規分布に従う、ということが受け入れられる。一方で、正規分布に従わないデータに関して標準化を行った場合には、標準化後に得られるデータは平均は0、分散は1となるが標準正規分布に従うようになるわけではない。

このエントリーをはてなブックマークに追加

Site search

ページのトップへ戻る