ガチ大学なめんな

顔キモすぎて大学になめられてる

ガチ分散

細かいことはある程度大きな視野持てるようになってからのほうがわかりやすいだろうからまずは雑に書く

まず最初なんで平均とかいう値を求めたかというとn個もあるデータの特性を平均という一つの数字で表せるから

でも平均の他にもデータには特性があってたとえばデータのばらつき

f:id:re9l:20190411234044p:plain

データのばらつき

これ左のほうがデータは固まってて右の方はデータが散らばってる これを一つの値で表すのが分散

分散を数字にしようと思うととりあえず基準がいるのでとりあえず平均値を基準にする

f:id:re9l:20190412224526p:plain

で、この青の矢印の長さの平均とったらデータが散らばってるほど数字がでかくてまとまってるほど数字がちっさくなる

でも青の矢印のでかさはデータが平均よりでかいかどうかで x_i - \bar{x}だったり逆に \bar{x} - x_iだったりするから実際に計算するとき場合分けが入ることになってうんこ

というわけで二乗して無理やり正の数にしてやってから平均をとることで最強になる

 

これを式にする

まず青の矢印 \bar{x} - x_i

それの二乗 (\bar{x} - x_i)^2 ちなみにこれどっちが前でも同じ数になる

これの平均、つまり1からnまでのiすべてについて足してnで割ることで分散の式が出る ちなみにiはインデックスのi

 \frac{1}{n}\sum_{i=1}^{n} (\bar{x} - x_i)^2

まあこれでいいんだけどなんか二乗しちゃってるからその分減らそう見たいに考えたのが標準偏差で雑に分散にルート付けてる だから分散はだいたい\sigma^2ってかくし標準偏差はだいたい\sigmaってかく