データの散らばり度合を表す指標である
「分散」と「標準偏差」について学ぼう!
偏差
「分散」を学ぶ前にまずは「偏差」から!
変量 $x$ のデータ $x_1$,$x_2$,$x_3$,……,$x_n$
平均値を $\bar{x}$ とすると
$x_1-\bar{x}$,$x_2-\bar{x}$,$x_3-\bar{x}$,……,$x_n-\bar{x}$ が偏差
$x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | 合計 | 平均 | |
$x$ | $1$ | $3$ | $5$ | $7$ | $9$ | $25$ | $\bar{x}=5$ |
偏差 $x-\bar{x}$ | $-4$ | $-2$ | $0$ | $2$ | $4$ | $0$ | / |
表の通り,偏差の和は $0$ になる
分散
変量 $x$ のデータ $x_1$,$x_2$,$x_3$,……,$x_n$
平均値を $\bar{x}$ とすると,分散 $s^2$ は
$\displaystyle s^2=\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2+……(x_n-\bar{x})^2\}$
※ 標準偏差を $s$ にすると,分散が $s^2$ になる(下で解説)
次のデータの分散を求めよ
$x 1 3 5 7 9$
$x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | 合計 | 平均 | |
$x$ | $1$ | $3$ | $5$ | $7$ | $9$ | $25$ | $\bar{x}=5$ |
偏差 $x-\bar{x}$ | $-4$ | $-2$ | $0$ | $2$ | $4$ | $0$ | / |
偏差の2乗 $(x-\bar{x})^2$ | $16$ | $4$ | $0$ | $4$ | $16$ | $40$ | $s^2=8$ |
偏差の2乗の和が $40$
(分散)=(偏差の2乗の平均) なので
分散 $\displaystyle s^2=\frac{1}{5}・40=8$
表を作ると簡単に解けるね!
分散はデータの散らばり度合
次のデータ $x$ と $y$ の散らばり度合を比較せよ
$x 1 3 5 7 9$
$y 3 4 5 6 7$
$y$ のデータの方が平均の近くにデータ集まっているから,
$y$ のデータの方が散らばり度合が小さそう!
その通り!
その散らばり度合を数値化したのが「分散」!
「分散」を計算してみよう!
$x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | 合計 | 平均 | |
$x$ | $1$ | $3$ | $5$ | $7$ | $9$ | $25$ | $\bar{x}=5$ |
偏差 $x-\bar{x}$ | $-4$ | $-2$ | $0$ | $2$ | $4$ | $0$ | / |
偏差の2乗 $(x-\bar{x})^2$ | $16$ | $4$ | $0$ | $4$ | $16$ | $40$ | $s_x^2=8$ |
偏差の2乗の和が $40$
(分散)=(偏差の2乗の平均) なので
$x$ の分散 $\displaystyle s_x^2=\frac{1}{5}・40=8$
$y_1$ | $y_2$ | $y_3$ | $y_4$ | $y_5$ | 合計 | 平均 | |
$y$ | $3$ | $4$ | $5$ | $6$ | $7$ | $25$ | $\bar{y}=5$ |
偏差 $y-\bar{y}$ | $-2$ | $-1$ | $0$ | $1$ | $2$ | $0$ | / |
偏差の2乗 $(y-\bar{y})^2$ | $4$ | $1$ | $0$ | $1$ | $4$ | $10$ | $s_y^2=2$ |
偏差の2乗の和が $10$
(分散)=(偏差の2乗の平均) なので
$y$ の分散 $\displaystyle s_y^2=\frac{1}{5}・10=2$
$x$ の分散 $s_x^2=8$,$y$ の分散 $s_y^2=2$
$s_x^2>s_y^2$ より $x$ のデータの方が散らばり度合が大きい
$x$ のデータの方が平均から離れた値が多い(散らばり度合が大きい)
平均から離れた値は偏差の2乗が大きくなる
偏差の2乗が大きくなると分散が大きくなる
という仕組み
標準偏差
分散を $s^2$ にすると,標準偏差は $s$ になる
標準偏差 $s=\sqrt{s^2}$
まず「分散」を求めてから「標準偏差」を求めよう!
次のデータの標準偏差を求めよ
$x 1 3 5 7 9$
$x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | 合計 | 平均 | |
$x$ | $1$ | $3$ | $5$ | $7$ | $9$ | $25$ | $\bar{x}=5$ |
偏差 $x-\bar{x}$ | $-4$ | $-2$ | $0$ | $2$ | $4$ | $0$ | / |
偏差の2乗 $(x-\bar{x})^2$ | $16$ | $4$ | $0$ | $4$ | $16$ | $40$ | $s^2=8$ |
偏差の2乗の和が $40$
(分散)=(偏差の2乗の平均) なので
分散 $\displaystyle s^2=\frac{1}{5}・40=8$
標準偏差 $s=\sqrt{8}=2\sqrt{2}≒2.8$
分散から標準偏差が求まるので,標準偏差も散らばり度合を表す
標準偏差の必要性
「分散」で散らばり度合が分かるのに,なんで「標準偏差」が必要なんだろう?
「分散」は単位がつけれられないけど,
「標準偏差」は単位がつけられるからだよ!
$(分散)=(偏差の2乗の平均)$ なので
分散はデータを2乗して出てきた値なので単位がつけられない
一方
$(標準偏差)=\sqrt{(分散)}$ なので
2乗して出てきた分散に $\sqrt{ }$ をつけることで
元通り単位がつけられるようになる
小テストの結果が以下のようになった。分散と標準偏差を求めよ
$1 3 5 7 9(点)$
$x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | 合計 | 平均 | |
$x$ | $1$ | $3$ | $5$ | $7$ | $9$ | $25$ | $\bar{x}=5$ |
偏差 $x-\bar{x}$ | $-4$ | $-2$ | $0$ | $2$ | $4$ | $0$ | / |
偏差の2乗 $(x-\bar{x})^2$ | $16$ | $4$ | $0$ | $4$ | $16$ | $40$ | $s^2=8$ |
偏差の2乗の和が $40$
(分散)=(偏差の2乗の平均) なので
分散 $\displaystyle s^2=\frac{1}{5}・40=8$ ←単位なし
標準偏差 $s=\sqrt{8}=2\sqrt{2}≒2.8(点)$ ←単位あり
まとめ
● 偏差
各値から平均値を引いた差 $x-\bar{x}$ ($\bar{x}$ は平均値)
● 分散 $s^2$
$\displaystyle(分散)=(偏差の2乗の平均)=\frac{(偏差の2乗の総和)}{(データの大きさ)}$
$\displaystyle s^2=\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2+……(x_n-\bar{x})^2\}$
● 標準偏差 $s$
$(標準偏差)=\sqrt{(分散)}$
● 分散と標準偏差は散らばり度合を表す
分散と標準偏差が大きいと散らばり度合が大きい
偏差と偏差と2乗を表にすることで,
簡単に「分散」と「標準偏差」が計算できるよ!
コメント