ガチ分散
細かいことはある程度大きな視野持てるようになってからのほうがわかりやすいだろうからまずは雑に書く
まず最初なんで平均とかいう値を求めたかというとn個もあるデータの特性を平均という一つの数字で表せるから
でも平均の他にもデータには特性があってたとえばデータのばらつき
これ左のほうがデータは固まってて右の方はデータが散らばってる これを一つの値で表すのが分散
分散を数字にしようと思うととりあえず基準がいるのでとりあえず平均値を基準にする
で、この青の矢印の長さの平均とったらデータが散らばってるほど数字がでかくてまとまってるほど数字がちっさくなる
でも青の矢印のでかさはデータが平均よりでかいかどうかでだったり逆にだったりするから実際に計算するとき場合分けが入ることになってうんこ
というわけで二乗して無理やり正の数にしてやってから平均をとることで最強になる
これを式にする
まず青の矢印
それの二乗 ちなみにこれどっちが前でも同じ数になる
これの平均、つまり1からnまでのiすべてについて足してnで割ることで分散の式が出る ちなみにiはインデックスのi
まあこれでいいんだけどなんか二乗しちゃってるからその分減らそう見たいに考えたのが標準偏差で雑に分散にルート付けてる だから分散はだいたいってかくし標準偏差はだいたいってかく