두 확률변수의 선형관계에 대한 정보.
공분산은 둘 이상의 확률변수 사이의 상관,correlation의 강도(strength)의 측도,measure를 제공함. (Mathworld)

상관,correlation 및 상관분석,correlation_analysis(curr see 상관,correlation) 관련

분산과는 달리 0 또는 음수일 수 있음.

기호: (CHK)

한 개의 확률변수에 대한 분산,variance이 σ² 다시 말해 σ_X² 였으며,
두 개의 확률변수에 대한 공분산의 기호는 σ_X，Y
(참고) 상관계수,correlation_coefficient의 기호는 ρ_X，Y

관련:
분산,variance V(X)
상관계수,correlation_coefficient Corr(X, Y)

공분산의 정의
x와 y의 공분산을 c_xy라 하면
$c_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}$
(통계가 빨라지는 수학력)

즉, 아주 rough하게, 분산,variance 식에 제곱 꼴 xx(=x²)이 있다면 공분산은 그 자리에 xy.
구체적으로는, 분산의 $(x_i-\bar{x})^2$ 자리에 공분산은 $(x_i-\bar{x})(y_i-\bar{y})$ 가 오는 그런 꼴.

식 모양을 분산과 비교해본다면,
x의 분산 $V_x = \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}$
y의 분산 $V_y = \frac{(y_1-\bar{y})^2+(y_2-\bar{y})^2+\cdots+(y_n-\bar{y})^2}{n}$
x와 y의 공분산 $c_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}$

// ㄷㄱㄱ Week 9-1 p7

Covariance:

One simple value to represent the relation between two random variables
Represent how two random variables vary together

$\text{Cov}[X,Y]$

$=\text{E}[(X-\mu_X)(Y-\mu_Y)]$
$=\text{E}[XY]-\text{E}[X]\text{E}[Y]$
// 위의 $\text{E}[XY]$ 를 correlation(상관관계? 상관,correlation?)이라고 한다. 바로 밑에도 나오지만 $r$ 로 표기한다.

$\sigma_{X,Y}=r_{X,Y}-\mu_X \mu_Y$

Uncorrelated: When $\text{Cov}[X,Y]=0$ .... // uncorrelated = 상관,correlation이 없는? 암튼 공분산의 값이 영,zero
이것은 두 확률변수의 독립(see 확률변수,random_variable#s-2 and 독립성,independence#s-3)과 밀접. 공분산이 $\text{Cov}[X,Y]=\text{E}[XY]-\text{E}[X]\text{E}[Y]$ 인데 두 확률변수가 독립 iff $\text{E}[XY]=\text{E}[X]\text{E}[Y]$ 이므로, 두 확률변수가 독립이면 그들의 공분산이 0이 되는 것.

성질들:

$\text{Cov}[aX,bY]=ab\text{Cov}[X,Y]$ ... // 스케일 된 확률변수의 경우. - 공분산의 스케일링 속성 - scaling property of covariance
$\text{Cov}[X,X]=\text{Var}[X]$ ... // 분산,variance과 같다

이 다음에 다루는 것은 상관계수,correlation_coefficient.
저것은 공분산을 분산,variance으로 scale한 것. (Covariance scaled by variance)
저것의 값은 -1에서 1 사이. (Strictly between -1 and 1)
저것의 식은

$\rho_{X,Y}=\frac{\text{Cov}[X,Y]}{\sqrt{\text{Var}[X]\text{Var}[Y]}}$

확률변수 X, Y에 대해

$E(X)=\mu_X$ 와 $E(Y)=\mu_Y$ 가 존재하면

X와 Y의 공분산은

$\mathrm{Cov}(X,Y):=E[(X-\mu_X)(Y-\mu_Y)]$

$\textrm{Cov}(x,y)=\frac1N\sum(x_i-\bar{x})(y_j-\bar{y})$

두 확률변수의 관계를 보여주는 값.
확률변수 X, Y가 같이 변하는 정도를 나타내는 값.
확률변수 X, Y에 대해 X가 변할 때 Y가 변하는 정도를 나타내는 값.
$(X-\mu_x)(Y-\mu_y)$ 의 평균,mean,average으로 정의.

$\mathrm{Cov}(X,Y)=E[(X-\mu_x)(Y-\mu_y)]$

여기서

$\mu_x,\mu_y$ 는 각각 $X,Y$ 의 기대값,expected_value,
$(X-\mu),(Y-\mu)$ 는 편차,deviation.

즉 편차의 곱의 평균으로 정의.

이산확률변수,discrete_random_variable의 공분산:

$\mathrm{Cov}(X,Y)=\sum_x \sum_y (x-\mu_x)(y-\mu_y)\cdot f(x,y)$

연속확률변수,continuous_random_variable의 공분산:

$\mathrm{Cov}(X,Y)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x-\mu_x)(y-\mu_y)\cdot f(x,y) dxdy$

기타 다음 식도 성립

$\mathrm{Cov}(X,Y)=E(XY)-E(X)E(Y)$
$\mathrm{Cov}(X,X)=E(X^2)-[E(X)]^2=\mathrm{Var}(X)$

즉 같은 변수끼리의 공분산,covariance은 바로 분산,variance.

X, Y가 서로 독립이면 E(XY)=E(X)E(Y)이다. 이 때,
Cov(X,Y)=E(XY)-E(X)E(Y)=E(X)E(Y)-E(X)E(Y)=0
공분산은 X가 변할 때 Y가 변하는 정도와 관련되는데, X와 Y가 독립이면 값이 0이 나옴을 볼 수 있다.

$\forall a,b,c,d\in\mathbb{R},$
Cov(aX, bY) = a b Cov(X, Y)
Cov(X+a, Y+b) = Cov(X, Y)
Cov(X, aX+b) = a Var(X)
Cov(aX+b, cX+d) = a c Var(X)

공분산의 단점은 '어느 정도' 연관되어 있는지 그 단위/스케일에 대한 것. 강도(strength)를 잘 보여주지 못함. 이것을 개선한 것이 상관계수,correlation_coefficient. (공분산을 표준편차의 곱으로 나눔)

tmp from http://blog.naver.com/mykepzzang/220838462884

${\rm Cov}(X,Y)\equiv E\left((X-E(X))(Y-E(Y))\right)$

$=E\left(XY-E(Y)X-E(X)Y+E(X)E(Y)\right)$
$=E(XY)-E(Y)E(X)-E(X)E(Y)+E(X)E(Y)$
$=E(XY)-E(X)E(Y)$

1. 표본공분산
2. 공분산행렬 covariance_matrix
3. 공분산(covariance)과 상관계수(correlation coefficient)
4. 공분산의 성질
5. 분산과 공분산의 비교
6. 웹페이지 요약 DELME later..
7. 기타
8. tmp links ko
9. Twins

[edit]

1. 표본공분산 ¶

표본공분산,sample_covariance

$c=\frac1{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

[edit]

2. 공분산행렬 covariance_matrix ¶

공분산행렬,covariance_matrix

공분산_행렬

공분산행렬

주성분분석,principal_component_analysis,PCA에서 쓰임

Up: 공분산,covariance 행렬,matrix

[edit]

3. 공분산(covariance)과 상관계수(correlation coefficient) ¶

전제:

$E(X)=\mu_X,\;E(Y)=\mu_Y$

가 존재할 때

$\operatorname{Cov}(X,Y)=E\left[(X-\mu_X)(Y-\mu_Y)\right]$

전제:

${\rm Var}(X)=\sigma_X^2$ 과
${\rm Var}(Y)=\sigma_Y^2$

가 각각 존재할 때 X와 Y의 상관계수는

$\rho(X,Y)=\rho_{XY}=\frac{{\rm Cov}(X,Y)}{\sqrt{{\rm Var}(X)}\sqrt{{\rm Var}(Y)}}$

Note:

${\rm Cov}(X,Y)=E(XY)-E(X)E(Y)$

from http://www.kocw.net/home/search/kemView.do?kemId=1162312 4장_확률변수와분포_분산

TBW: 이걸 다음과 비교
자기공분산,autocovariance과 자기상관,autocorrelation or 자기상관계수,autocorrelation_coefficient

[edit]

4. 공분산의 성질 ¶

Var(X) = Cov(X, X)
Cov(X, Y) = Cov(Y, X)
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)

tmp
https://m.blog.naver.com/skkong89/222410656637 - Harvard 확률론기초 STAT-110 정리

[edit]

5. 분산과 공분산의 비교 ¶

분산,variance	$V(X)=E[(X-\mu)^2]$ $V(X)=E(X^2)-\left[E(X)\right]^2$
공분산,covariance	$\operatorname{Cov}(X,Y)=E[(X-\mu_X)\cdot(Y-\mu_Y)]$ $\operatorname{Cov}(X,Y)=E(X\cdot Y)-E(X)\cdot E(Y)$