공분산,covariance

확률변수선형관계에 대한 정보.
공분산은 둘 이상의 확률변수 사이의 상관,correlation의 강도(strength)의 측도,measure를 제공함. (Mathworld)


분산과는 달리 0 또는 음수일 수 있음.

기호: (CHK)
한 개의 확률변수에 대한 분산,variance이 σ2 다시 말해 σX2 였으며,
두 개의 확률변수에 대한 공분산의 기호는 σX,Y
(참고) 상관계수,correlation_coefficient의 기호는 ρX,Y

관련:
분산,variance V(X)
상관계수,correlation_coefficient Corr(X, Y)


공분산의 정의
x와 y의 공분산을 cxy라 하면
$c_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}$
(통계가 빨라지는 수학력)

즉, 아주 rough하게, 분산,variance 식에 제곱 꼴 xx(=x2)이 있다면 공분산은 그 자리에 xy.
구체적으로는, 분산의 $(x_i-\bar{x})^2$ 자리에 공분산은 $(x_i-\bar{x})(y_i-\bar{y})$ 가 오는 그런 꼴.

식 모양을 분산과 비교해본다면,
x의 분산 $V_x = \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}$
y의 분산 $V_y = \frac{(y_1-\bar{y})^2+(y_2-\bar{y})^2+\cdots+(y_n-\bar{y})^2}{n}$
x와 y의 공분산 $c_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}$


// ㄷㄱㄱ Week 9-1 p7

Covariance:
  • One simple value to represent the relation between two random variables
  • Represent how two random variables vary together
$\text{Cov}[X,Y]$
$=\text{E}[(X-\mu_X)(Y-\mu_Y)]$
$=\text{E}[XY]-\text{E}[X]\text{E}[Y]$
// 위의 $\text{E}[XY]$ 를 correlation(상관관계? 상관,correlation?)이라고 한다. 바로 밑에도 나오지만 $r$ 로 표기한다.

$\sigma_{X,Y}=r_{X,Y}-\mu_X \mu_Y$

Uncorrelated: When $\text{Cov}[X,Y]=0$ .... // uncorrelated = 상관,correlation이 없는? 암튼 공분산의 값이 영,zero
이것은 두 확률변수의 독립(see 확률변수,random_variable#s-2 and 독립성,independence#s-3)과 밀접. 공분산이 $\text{Cov}[X,Y]=\text{E}[XY]-\text{E}[X]\text{E}[Y]$ 인데 두 확률변수가 독립 iff $\text{E}[XY]=\text{E}[X]\text{E}[Y]$ 이므로, 두 확률변수가 독립이면 그들의 공분산이 0이 되는 것.

성질들:
$\text{Cov}[aX,bY]=ab\text{Cov}[X,Y]$ ... // 스케일 된 확률변수의 경우. - 공분산의 스케일링 속성 - scaling property of covariance
$\text{Cov}[X,X]=\text{Var}[X]$ ... // 분산,variance과 같다

이 다음에 다루는 것은 상관계수,correlation_coefficient.
저것은 공분산분산,variance으로 scale한 것. (Covariance scaled by variance)
저것의 값은 -1에서 1 사이. (Strictly between -1 and 1)
저것의 식은
$\rho_{X,Y}=\frac{\text{Cov}[X,Y]}{\sqrt{\text{Var}[X]\text{Var}[Y]}}$


확률변수 X, Y에 대해
$E(X)=\mu_X$$E(Y)=\mu_Y$ 가 존재하면
X와 Y의 공분산
$\mathrm{Cov}(X,Y):=E[(X-\mu_X)(Y-\mu_Y)]$

$\textrm{Cov}(x,y)=\frac1N\sum(x_i-\bar{x})(y_j-\bar{y})$


두 확률변수의 관계를 보여주는 값.
확률변수 X, Y가 같이 변하는 정도를 나타내는 값.
확률변수 X, Y에 대해 X가 변할 때 Y가 변하는 정도를 나타내는 값.
$(X-\mu_x)(Y-\mu_y)$평균,mean,average으로 정의.
$\mathrm{Cov}(X,Y)=E[(X-\mu_x)(Y-\mu_y)]$
여기서
즉 편차의 곱의 평균으로 정의.

이산확률변수,discrete_random_variable의 공분산:
$\mathrm{Cov}(X,Y)=\sum_x \sum_y (x-\mu_x)(y-\mu_y)\cdot f(x,y)$
연속확률변수,continuous_random_variable의 공분산:
$\mathrm{Cov}(X,Y)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x-\mu_x)(y-\mu_y)\cdot f(x,y) dxdy$

기타 다음 식도 성립
$\mathrm{Cov}(X,Y)=E(XY)-E(X)E(Y)$
$\mathrm{Cov}(X,X)=E(X^2)-[E(X)]^2=\mathrm{Var}(X)$
즉 같은 변수끼리의 공분산,covariance은 바로 분산,variance.

X, Y가 서로 독립이면 E(XY)=E(X)E(Y)이다. 이 때,
Cov(X,Y)=E(XY)-E(X)E(Y)=E(X)E(Y)-E(X)E(Y)=0
공분산은 X가 변할 때 Y가 변하는 정도와 관련되는데, X와 Y가 독립이면 값이 0이 나옴을 볼 수 있다.

$\forall a,b,c,d\in\mathbb{R},$
Cov(aX, bY) = a b Cov(X, Y)
Cov(X+a, Y+b) = Cov(X, Y)
Cov(X, aX+b) = a Var(X)
Cov(aX+b, cX+d) = a c Var(X)

공분산의 단점은 '어느 정도' 연관되어 있는지 그 단위/스케일에 대한 것. 강도(strength)를 잘 보여주지 못함. 이것을 개선한 것이 상관계수,correlation_coefficient. (공분산을 표준편차의 곱으로 나눔)



${\rm Cov}(X,Y)\equiv E\left((X-E(X))(Y-E(Y))\right)$
$=E\left(XY-E(Y)X-E(X)Y+E(X)E(Y)\right)$
$=E(XY)-E(Y)E(X)-E(X)E(Y)+E(X)E(Y)$
$=E(XY)-E(X)E(Y)$



3. 공분산(covariance)과 상관계수(correlation coefficient)

전제:
$E(X)=\mu_X,\;E(Y)=\mu_Y$
가 존재할 때
$\operatorname{Cov}(X,Y)=E\left[(X-\mu_X)(Y-\mu_Y)\right]$

전제:
${\rm Var}(X)=\sigma_X^2$
${\rm Var}(Y)=\sigma_Y^2$
가 각각 존재할 때 X와 Y의 상관계수는
$\rho(X,Y)=\rho_{XY}=\frac{{\rm Cov}(X,Y)}{\sqrt{{\rm Var}(X)}\sqrt{{\rm Var}(Y)}}$

Note:
${\rm Cov}(X,Y)=E(XY)-E(X)E(Y)$

from http://www.kocw.net/home/search/kemView.do?kemId=1162312 4장_확률변수와분포_분산


4. 공분산의 성질

Var(X) = Cov(X, X)
Cov(X, Y) = Cov(Y, X)
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)

tmp
https://m.blog.naver.com/skkong89/222410656637 - Harvard 확률론기초 STAT-110 정리

5. 분산과 공분산의 비교

분산,variance $V(X)=E[(X-\mu)^2]$
$V(X)=E(X^2)-\left[E(X)\right]^2$
공분산,covariance $\operatorname{Cov}(X,Y)=E[(X-\mu_X)\cdot(Y-\mu_Y)]$
$\operatorname{Cov}(X,Y)=E(X\cdot Y)-E(X)\cdot E(Y)$

6. 웹페이지 요약 DELME later..

from 두산백과

$\mu=\sum_{i=1}^{m}\sum_{j=1}^{n}f_{ij}(x_i-\bar{x})(y_i-\bar{y})$

from 수학백과

확률변수 X, Y의 기대값,expected_value을 각각 $\mu_X=E(X),\,\mu_Y=E(Y)$ 라 하면 공분산은
$\mathrm{Cov}(X,Y)=E((X-\mu_X)(Y-\mu_Y))$
$=E(XY)-E(X)E(Y)$

공분산=0이면, 상관없다(uncorrelated)
두 확률변수가 독립이면, 공분산은 0이다. 그러나 역은 일반적으로 참이 아니다.
공분산을 각 변수의 표준편차로 나누면 상관계수(Corr(X, Y))
$\mathrm{Corr}(X,Y)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{V(X)V(Y)}}$

7. 기타

PL에서 covariance (그리고 contravariance) 에 대해서는 여길 참조 - WpEn:Covariance_and_contravariance_(computer_science)

8. tmp links ko