표준편차,standard_deviation

표기:
σ, SD, STD, s, etc.

고딩레벨에선 항상 분산,variance의 제곱근인듯?
$\sigma=\sqrt{V}$
$\sigma_x=\sqrt{V_x}$
$\sigma(x)=\sqrt{V(x)}$

표준편차(STD)는 분산(VAR)의 양의 제곱근
$STD(X)=\sigma_X:=\sqrt{VAR(X)}$

모표준편차,population_standard_deviation σ
{
모평균,population_mean μ를 가지고 계산
모집단,population 표준편차,standard_deviation
}
표본표준편차,sample_standard_deviation s
{
표본평균,sample_mean X̅를 가지고 계산
표본,sample 표준편차,standard_deviation
}

모표준편차: 데이터 수 $N$ 으로 나눔.
$\sigma=\sqrt{\frac{\textstyle\sum(x_i-\mu)^2}{N}}$
표본표준편차: 표본 자료 수보다 작은 $n-1$ 로 나눔.
$s_x=\sqrt{\frac{\textstyle\sum(x_i-\bar{x})^2}{n-1}}$
//tmp expr from [https]khan


성질

$VAR(aX+b)=a^2VAR(X)$
$STD(aX+b)=|a|STD(X)$

pf. $V[aX+b]$
$=E[(aX+b-E(aX+b))^2]$
$=E[(aX+b-(aE(X)+b))^2]$
$=E[(aX+b-aE(X)-b)^2]$
$=E[(aX-aE(X))^2]$
$=E[a^2(X-(E(X))^2]$
$=a^2E[X-(E(X))^2]$
$=a^2V[X]$

tmp

분산,variance 뿐만 아니라 표준편차도 있는 이유는, 분산은 제곱하여 나온 것이기 때문에 실제 scale? 단위? 차원?... 와 동떨어질 수 있어서.

근데 표준편차 역시 문제점이 있는데
(여러 집합/집단 의 표준편차를 비교한다는 전제...)
표준편차는 퍼져있는 정도를 알아보자는 건데,
data 집합 크기(?? 확실히)에 따라 ....(대충 scale이 제각각이라는 얘기)
그래서 이 문제를 해결하기 위해 '표준편차'보다 '평균을 고려한 표준편차'개념이 만들어졌고
이것을 변동계수,variation_coefficient라 한다.


http://www.kocw.net/home/search/kemView.do?kemId=1162312 2장. 자료의 표현_변동성 에 의하면.. begin


이것들은 산포도,dispersion측도,measure이고,

표준편차 SD제곱평균제곱근,root_mean_square,RMS로 나타내는데
$SD=\sqrt{\frac1{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}$
CHK

표본표준편차,sample_standard_deviation (s)
$s=\sqrt{\frac1{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2}$
n을 n-1로만 바꾼 것.

n-1: 자유롭게 가질 수 있는 편차의 개수 - 자유도,degree_of_freedom라고 함

표본분산,sample_variance (s2)
표본분산은 표본표준편차의 제곱.
$s^2=\frac1{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$

표본분산의 간편식:
$s^2=\frac1{n-1}\left(\sum_{i=1}^{n}x_i^2-n(\bar{x})^2\right)=\frac1{n(n-1)}\left(n\sum_{i=1}^{n}x_i^2-\left(\sum_{i=1}^{n}x_i\right)^2\right)$



end TOCLEANUP

표본분산 간이식(from kocw [http]숙대 강의자료3 p106)
$s^2=\frac1{n-1}\sum(x_i-\bar{x})^2=\frac1{n-1}\left(\sum x_i^2-n\bar{x}^2\right)=\frac1{n-1}\left(\sum x_i^2-\frac1{n}\left(\sum x_i\right)^2\right)$




표준오차,standard_error와 다르다. 비교해 적을 것. TBW

이름이 편차,deviation이므로 평균과의 차이를 나타내는 것이 맞는지 chk
그냥 편차는 특정 sample에 대한 것이고 표준편차는 전체 자료에 대한 것?
평균,mean,average의 주변에 측정값이 어느 정도나 흩어져 있는지를 나타내는 것?