분포의 평균,mean,average 주위에서 흩어진 정도를 나타내는 수치.
편차,deviation의 제곱,square의 평균.

'(값−평균)²의 평균'. (나가노 히로유키)

제곱합,square_sum을 자유도,degree_of_freedom로 나눈 것. (김성주)

// ㄷㄱㄱ Week 6-2 p9
Variance: a fixed value that represents how much a RV can vary

Var[X]=σ_X²=E[(X−E[X])²]=E[X²]−E[X]²
$\text{Var}[X]=\sigma_X^2=\text{E}[(X-\text{E}[X])^2]=\text{E}[X^2]-\text{E}[X]^2$

Discrete RV의 경우:

$\text{Var}[X]=\sum_{x\in S_X} (x-\mu_X)^2 P_X(x)$
$P$ : pmf (확률질량함수,probability_mass_function,PMF)

Continuous RV의 경우:

$\text{Var}[X]=\int_{-\infty}^{\infty}(x-\mu_X)^2 f_X(x)dx$
$f$ : pdf (확률밀도함수,probability_density_function,PDF)? chk

편차의 제곱의 평균이란? 단계적으로 보면
편차 $x_i-\mu$
편차의 제곱 $(x_i-\mu)^2$
편차의 제곱의 평균 $\textstyle\frac1n\sum_{i=1}^n(x_i-\mu)^2$ ← 분산

....근데 표본분산이라면 분모에 n-1 들어감...chk
$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$ CHK

기호:

$\sigma^2$ (표준편차,standard_deviation의 제곱)
$\sigma_X^2$ (확률변수,random_variable를 명시할 때)
$V(X),\;VAR(X),\;\operatorname{Var}(X)$ (함수 꼴)

1. 설명
2. 확률분포와의 관계
3. 정리
4. 변수 두 개
5. 모분산 population variance
6. 표본분산 sample variance
7. sampling variance
8. 조건부 분산 conditional variance
9. 공분산 covariance
10. Bias와의 관계
11. 기타

[edit]

1. 설명 ¶

$n$ 개의 변량,variate

$x_1,\,x_2,\,\cdots,\,x_n$

의 평균,mean,average을 $m$ 이라고 하면, 각 변량의 편차,deviation는

$x_1-m,\,x_2-m,\,\cdots,\,x_n-m$

이고 분산,variance은 편차의 제곱의 평균인

$\frac{1}{n}\left{(x_1-m)^2+(x_2-m)^2+\cdots+(x_n-m)^2\right}$

표준편차,standard_deviation는

$\sqrt{bunsan}$

분산을 구하는 순서

데이터의 평균을 구한다
각 데이터에 대해, (값 − 평균)을 구한다
각 데이터의 (값 − 평균)²을 구한다
(값 − 평균)²의 평균을 구한다

$n$ 개의 데이터

$x_1,x_2,x_3,\cdots,x_n$

가 있을 때, 분산은

$V_x=\frac{(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + (x_3-\bar{x})^2 + \cdots + (x_n-\bar{x})^2}{n}$

i.e.

$V_x=\frac1n \sum_{k=1}^n (x_k - \bar{x})^2$

아울러 표준편차,standard_deviation는 물론

$s_x=\sqrt{V_x}=\sqrt{\frac{(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + (x_3-\bar{x})^2 + \cdots + (x_n-\bar{x})^2}{n}}$

그렇다면 확률변수,random_variable의 분산은?

$V(X)=E(X^2)-(E(X))^2$
$V=\bar{x^2}-\bar{x}^2$

이것의 증명은,
$V(X)=E((X-\bar{X})^2)$

$=\sum_{i=1}^n(x_i-\bar{X})^2 p_i$
$=\sum_{i=1}^n(x_i^2-2x_i\bar{X}+\bar{X}^2)p_i$
$=\sum_{i=1}^n(x_i^2p_i-2\bar{X}x_ip_i+\bar{X}^2 p_i)$ (여기서 $2\bar{X},\,\bar{X}^2$ 은 상수이므로 $\textstyle\sum$ 앞에 놓을 수 있다.)
$=\sum_{i=1}^nx_i^2p_i-2\bar{X}\sum_{i=1}^n x_i p_i + \bar{X}^2 \sum_{i=1}^n p_i$ (여기서 $\textstyle\sum_{i=1}^n x_i^2 p_i = \bar{X^2},\; \textstyle\sum_{i=1}^n x_ip_i = \bar{X},\; \textstyle\sum_{i=1}^n p_i = 1$ 이므로)
$=\bar{X^2}-2\bar{X}\cdot\bar{X}+\bar{X}^2\cdot 1$
$=\bar{X^2}-2\bar{X}^2+\bar{X}^2$
$=\bar{X^2}-\bar{X}^2$
$=E(X^2)-(E(X))^2$

(나가노 히로유키)

$V(x)=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}$

$=\frac1{n}\sum_{k=1}^{n}(x_k-\bar{x})^2$

$V(X)=E((X-\bar{X})^2)$
${\rm Var}(X)=\sigma_X^2$

$:=E\left(\left(X-E(X)\right)^2\right)$ (정의)
$=E(X^2)-E(X)^2$ (정리)

pf. $\textrm{Note: }m_X=E(X)$

$V(X)=E((X-m_X)^2)$
$=E(X^2-2m_XX+m_X^2)$
$=E(X^2)-2m_XE(X)+m_X^2$
$=E(X^2)-m_X^2$

$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x}_n)^2$

즉 편차,deviation의 제곱을 합하여 $n-1$ 로 나눈 것

"제곱의 평균 빼기 평균의 제곱"으로 계산 가능

$V_x=\bar{x^2}-{\bar{x}}^2$
$V(X)=E(X^2)-(E(X))^2$

확률및랜덤프로세스

확률변수,random_variable X의 분산의 정의

$\sigma_X^2=VAR[X]=E[(X-m_X)^2]=\sum_k (x_k-m_X)^2p_X(x_k)$

두번째 적률(2nd moment)임. See 적률,moment

[edit]

2. 확률분포와의 관계 ¶

작은 분산: 평균 주위에 집중적으로 분포
큰 분산: 넓게 분포

[edit]

3. 정리 ¶

임의의 상수 a, b에 대해
$V(aX+b)=a^2V(X)$

$V(X+b)=V(X)$

$V(-X)=V(X)$

$V(X)=E(X^2)-\left[E(X)\right]^2=E(X^2)-\mu^2$
pf. $V(X)=E\left[(X-\mu)^2\right]=E\left(X^2-2\mu X+\mu^2\right)=E(X^2)-\mu^2$

[edit]

4. 변수 두 개 ¶

X, Y가 독립이면,

Var(X + Y) = Var(X) + Var(Y)

[edit]

5. 모분산 population variance ¶

모분산,population_variance σ²

[edit]

6. 표본분산 sample variance ¶

표본분산,sample_variance s²

$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$

$n$ 개의 편차,deviation를 사용하는 것 같지만,

$\sum_{i=1}^{n}(x_i-\bar{x})=0$

이라는 제약조건 때문에 $n-1$ 개의 편차 정보 사용
$n-1$ 은 자유롭게 가질 수 있는 편차의 개수로서 자유도,degree_of_freedom라 함

Twins:
https://mathworld.wolfram.com/SampleVariance.html

[edit]

7. sampling variance ¶

sampling_variance

바로 위 표본분산,sample_variance과 혼동하지 말라는 거 명시해야...

Sampling_variance redir. to

Sampling_error

sampling_error
표집오차? 샘플링오차? 표본추출오차? { 표본추출,sampling(작성중) 오차,error? }

kms: sampling error 표본오차, 표본뽑기 오차

그럼 여기선(sampling에선) 오차,error와 분산,variance이 어떻게 같은지/다른지 - TBW

[edit]

8. 조건부 분산 conditional variance ¶

See 조건부분산,conditional_variance

[edit]

9. 공분산 covariance ¶

공분산,covariance - 확률변수가 두 개 이상일 때? - yes

분산 공분산 비교

//tmp chk; from https://blog.naver.com/ivivaldi/221930184691 ... 공분산과 주성분분석. CLEANUP and TOMOVE, TOFORK.
{
분산과의 관계

분산 variance : 한 random variable
공분산 covariance : 두 개 이상의 random variable

$\sigma_x^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
$\sigma(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$
where
$n$ : 표본,sample의 개수

행렬로 표현하면
$C_{i,j}=\sigma(x_i,x_j) \,\textrm{ where }\, C\in\mathbb{R}^{d\times d}$
where
$d$ : 확률변수의 차원,dimension 또는 확률변수의 개수

.....

$C=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})(X_i-\bar{X})^t$
$X \in \mathbb{R}^{n\times d}$

X는 dataset/data_set(자료집합,dataset) 으로 $n$ 개의 sample, $d$ 개의 random_variable.

공분산행렬covariance_matrix 은 semi-definite_matrix { 준정부호행렬 또는 준정치행렬 ? } $XX^t$ 를 써서 이렇게 표현 가능

$C=\frac{XX^t}{n-1}$

그리고 C의 크기는 $d\times d$ ... 표본 개수와 관계없이 확률변수의 개수(차원)로만 표현된다.

covariance_matrix 의

대각선 성분은 variance,
그 이외 성분은 correlation(redundancy) 이다.
// 상관,correlation(curr see 상관계수,correlation_coefficient) 여유도,redundancy

데이터,data를 다룰 때 correlation(redundancy)를 최소화하고 variance를 최대화하여 데이터를 압축,compression한다.

- 주성분분석,principal_component_analysis,PCA의 중요한 개념.
- feature_extraction 의 한 방법.

...

PCA와 특이값분해,singular_value_decomposition,SVD의 관계.
위

$C=\frac{XX^t}{n-1}$

을 대각행렬,diagonal_matrix로 표현하면,

$C=VLV^t$

V 행렬의 각 열,column이 고유벡터,eigenvector다.
L 행렬의 대각선성분(주대각선

주대각성분 main_diagonal

대각원소 diagonal_element s diagonal_entry -ies ? ) 은 대각선 방향으로 감소하는 고유값,eigenvalues들 $\lambda_i$ 이다.
고유벡터는 data의 'principal_axis' or 'principal_direction's 이다.
data의 principle axes로의 사영,projection을 principal_component s (PC scores)라고 한다.

V 행렬의 각 열이 고유벡터라는 것은, 다시 말해 고유벡터열 eigenvector_column 의 확장공간(생성,span)으로 데이터를 표현할 수 있다는 것이고,
이 span으로 data를 투영(projection?)하여 data를 근사화(see 근사,approximation)할 수 있다.

여기서 기저벡터(기저,basis)를 다 쓰지 않고 'data의 90% 특성을 반영하는'(QQQ 정확한 뜻 i.e. 수량적/정량적 정의?) 일부 기저벡터만 이용하면 저차원(low-dimension)데이터로 압축된다.
즉 차원을 줄여 정보량을 줄인다 => 압축한다 ? chk

데이터 X를 SVD로 표현하고 위 $C=\frac{XX^t}{n-1}$ 에 대입하면