분산,variance

분포의 평균,mean,average 주위에서 흩어진 정도를 나타내는 수치.
편차,deviation제곱,square의 평균.

'(값−평균)2의 평균'. (나가노 히로유키)

제곱합,square_sum자유도,degree_of_freedom로 나눈 것. (김성주)

// ㄷㄱㄱ Week 6-2 p9
Variance: a fixed value that represents how much a RV can vary
Var[X]=σX2=E[(X−E[X])2]=E[X2]−E[X]2
$\text{Var}[X]=\sigma_X^2=\text{E}[(X-\text{E}[X])^2]=\text{E}[X^2]-\text{E}[X]^2$

Discrete RV의 경우:
Continuous RV의 경우:

편차의 제곱의 평균이란? 단계적으로 보면
편차 $x_i-\mu$
편차의 제곱 $(x_i-\mu)^2$
편차의 제곱의 평균 $\textstyle\frac1n\sum_{i=1}^n(x_i-\mu)^2$분산

....근데 표본분산이라면 분모에 n-1 들어감...chk
$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$ CHK

기호:
$\sigma^2$ (표준편차,standard_deviation의 제곱)
$\sigma_X^2$ (확률변수,random_variable를 명시할 때)
$V(X),\;VAR(X),\;\operatorname{Var}(X)$ (함수 꼴)



1. 설명

$n$ 개의 변량,variate
$x_1,\,x_2,\,\cdots,\,x_n$
평균,mean,average$m$ 이라고 하면, 각 변량의 편차,deviation
$x_1-m,\,x_2-m,\,\cdots,\,x_n-m$
이고 분산,variance은 편차의 제곱의 평균인
$\frac{1}{n}\left{(x_1-m)^2+(x_2-m)^2+\cdots+(x_n-m)^2\right}$
표준편차,standard_deviation
$\sqrt{bunsan}$


분산을 구하는 순서
  1. 데이터의 평균을 구한다
  2. 각 데이터에 대해, (값 − 평균)을 구한다
  3. 각 데이터의 (값 − 평균)2을 구한다
  4. (값 − 평균)2의 평균을 구한다

$n$ 개의 데이터
$x_1,x_2,x_3,\cdots,x_n$
가 있을 때, 분산은
$V_x=\frac{(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + (x_3-\bar{x})^2 + \cdots + (x_n-\bar{x})^2}{n}$
i.e.
$V_x=\frac1n \sum_{k=1}^n (x_k - \bar{x})^2$

아울러 표준편차,standard_deviation는 물론
$s_x=\sqrt{V_x}=\sqrt{\frac{(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + (x_3-\bar{x})^2 + \cdots + (x_n-\bar{x})^2}{n}}$

그렇다면 확률변수,random_variable분산은?
$V(X)=E(X^2)-(E(X))^2$
$V=\bar{x^2}-\bar{x}^2$
이것의 증명은,
$V(X)=E((X-\bar{X})^2)$
$=\sum_{i=1}^n(x_i-\bar{X})^2 p_i$
$=\sum_{i=1}^n(x_i^2-2x_i\bar{X}+\bar{X}^2)p_i$
$=\sum_{i=1}^n(x_i^2p_i-2\bar{X}x_ip_i+\bar{X}^2 p_i)$ (여기서 $2\bar{X},\,\bar{X}^2$ 은 상수이므로 $\textstyle\sum$ 앞에 놓을 수 있다.)
$=\sum_{i=1}^nx_i^2p_i-2\bar{X}\sum_{i=1}^n x_i p_i + \bar{X}^2 \sum_{i=1}^n p_i$ (여기서 $\textstyle\sum_{i=1}^n x_i^2 p_i = \bar{X^2},\; \textstyle\sum_{i=1}^n x_ip_i = \bar{X},\; \textstyle\sum_{i=1}^n p_i = 1$ 이므로)
$=\bar{X^2}-2\bar{X}\cdot\bar{X}+\bar{X}^2\cdot 1$
$=\bar{X^2}-2\bar{X}^2+\bar{X}^2$
$=\bar{X^2}-\bar{X}^2$
$=E(X^2)-(E(X))^2$

(나가노 히로유키)


$V(x)=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}$
$=\frac1{n}\sum_{k=1}^{n}(x_k-\bar{x})^2$

$V(X)=E((X-\bar{X})^2)$
${\rm Var}(X)=\sigma_X^2$
$:=E\left(\left(X-E(X)\right)^2\right)$ (정의)
$=E(X^2)-E(X)^2$ (정리)

pf. $\textrm{Note: }m_X=E(X)$
$V(X)=E((X-m_X)^2)$
$=E(X^2-2m_XX+m_X^2)$
$=E(X^2)-2m_XE(X)+m_X^2$
$=E(X^2)-m_X^2$

$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x}_n)^2$

편차,deviation의 제곱을 합하여 $n-1$ 로 나눈 것

"제곱의 평균 빼기 평균의 제곱"으로 계산 가능
$V_x=\bar{x^2}-{\bar{x}}^2$
$V(X)=E(X^2)-(E(X))^2$


확률변수,random_variable X의 분산의 정의
$\sigma_X^2=VAR[X]=E[(X-m_X)^2]=\sum_k (x_k-m_X)^2p_X(x_k)$

두번째 적률(2nd moment)임. See 적률,moment

2. 확률분포와의 관계

  • 작은 분산: 평균 주위에 집중적으로 분포
  • 큰 분산: 넓게 분포

3. 정리

임의의 상수 a, b에 대해
$V(aX+b)=a^2V(X)$

$V(X+b)=V(X)$

$V(-X)=V(X)$

$V(X)=E(X^2)-\left[E(X)\right]^2=E(X^2)-\mu^2$
pf. $V(X)=E\left[(X-\mu)^2\right]=E\left(X^2-2\mu X+\mu^2\right)=E(X^2)-\mu^2$

4. 변수 두 개

X, Y가 독립이면,
Var(X + Y) = Var(X) + Var(Y)

5. 모분산 population variance

6. 표본분산 sample variance


$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
$n$ 개의 편차,deviation를 사용하는 것 같지만,
$\sum_{i=1}^{n}(x_i-\bar{x})=0$
이라는 제약조건 때문에 $n-1$ 개의 편차 정보 사용
$n-1$ 은 자유롭게 가질 수 있는 편차의 개수로서 자유도,degree_of_freedom라 함


7. sampling variance

sampling_variance

바로 위 표본분산,sample_variance과 혼동하지 말라는 거 명시해야...


sampling_error
표집오차? 샘플링오차? 표본추출오차? { 표본추출,sampling(작성중) 오차,error? }

kms: sampling error 표본오차, 표본뽑기 오차

그럼 여기선(sampling에선) 오차,error분산,variance이 어떻게 같은지/다른지 - TBW

8. 조건부 분산 conditional variance

9. 공분산 covariance

공분산,covariance - 확률변수가 두 개 이상일 때? - yes


//tmp chk; from https://blog.naver.com/ivivaldi/221930184691 ... 공분산과 주성분분석. CLEANUP and TOMOVE, TOFORK.
{
분산과의 관계

분산 variance : 한 random variable
공분산 covariance : 두 개 이상의 random variable

$\sigma_x^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
$\sigma(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$
where
$n$ : 표본,sample의 개수

행렬로 표현하면
$C_{i,j}=\sigma(x_i,x_j) \,\textrm{ where }\, C\in\mathbb{R}^{d\times d}$
where
$d$ : 확률변수의 차원,dimension 또는 확률변수의 개수

.....

$C=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})(X_i-\bar{X})^t$
$X \in \mathbb{R}^{n\times d}$

X는 dataset/data_set(자료집합,dataset) 으로 $n$ 개의 sample, $d$ 개의 random_variable.

공분산행렬covariance_matrix 은 semi-definite_matrix { 준정부호행렬 또는 준정치행렬 ? } $XX^t$ 를 써서 이렇게 표현 가능
$C=\frac{XX^t}{n-1}$

그리고 C의 크기는 $d\times d$ ... 표본 개수와 관계없이 확률변수의 개수(차원)로만 표현된다.

covariance_matrix 의
대각선 성분은 variance,
그 이외 성분은 correlation(redundancy) 이다.
// 상관,correlation(curr see 상관계수,correlation_coefficient) 여유도,redundancy

데이터,data를 다룰 때 correlation(redundancy)를 최소화하고 variance를 최대화하여 데이터를 압축,compression한다.
- 주성분분석,principal_component_analysis,PCA의 중요한 개념.
- feature_extraction 의 한 방법.

...

PCA와 특이값분해,singular_value_decomposition,SVD의 관계.

$C=\frac{XX^t}{n-1}$
대각행렬,diagonal_matrix로 표현하면,
$C=VLV^t$
V 행렬의 각 열,column고유벡터,eigenvector다.
L 행렬의 대각선성분(주대각선 Namu:주대각성분 main_diagonal Zeta:대각원소 diagonal_element s diagonal_entry -ies ? ) 은 대각선 방향으로 감소하는 고유값,eigenvalues들 $\lambda_i$ 이다.
고유벡터는 data의 'principal_axis' or 'principal_direction's 이다.
data의 principle axes로의 사영,projection을 principal_component s (PC scores)라고 한다.

V 행렬의 각 열이 고유벡터라는 것은, 다시 말해 고유벡터열 eigenvector_column 의 확장공간(생성,span)으로 데이터를 표현할 수 있다는 것이고,
이 span으로 data를 투영(projection?)하여 data를 근사화(see 근사,approximation)할 수 있다.

여기서 기저벡터(기저,basis)를 다 쓰지 않고 'data의 90% 특성을 반영하는'(QQQ 정확한 뜻 i.e. 수량적/정량적 정의?) 일부 기저벡터만 이용하면 저차원(low-dimension)데이터로 압축된다.
즉 차원을 줄여 정보량을 줄인다 => 압축한다 ? chk

데이터 X를 SVD로 표현하고 위 $C=\frac{XX^t}{n-1}$ 에 대입하면
$X=USV^t$
여기서
U는 유니터리행렬,unitary_matrix이고,
S는 대각행렬,diagonal_matrix of singular values $S_i$ (? chk)

$C=VSU^t USV^t / (n-1) = V \frac{S^2}{n-1} V^t$

right singular_vector s .... 우특이벡터? V는 주 방향들(principle directions)이다.
singular_value s 는 공분산행렬,covariance_matrix 의 고유값,eigenvalue과 다음 관계를 가진다.
$\lambda_i = s_i^2 / (n-1)$

principal_component 는 데이터의 principal axes로의 투영(projection?)이고 SVD와 다음 관계가 있다.
$XV= U S V^t V=US$

SVD는 principal_component 를 계산할 때도 사용한다.

}

10. Bias와의 관계

분산편향,bias과 trade-off 관계임.


rel. 높은 분산은 과적합,overfitting을, 높은 편향은 과소적합,underfitting을? chk