#noindex 두 [[확률변수,random_variable|확률변수]]의 [[선형성,linearity|선형관계]]에 대한 정보. '''공분산'''은 둘 이상의 확률변수 사이의 [[상관,correlation]]의 강도(strength)의 [[측도,measure]]를 제공함. (Mathworld) [[상관,correlation]] 및 [[상관분석,correlation_analysis]](curr see [[상관,correlation]]) 관련 분산과는 달리 0 또는 음수일 수 있음. 기호: (CHK) 한 개의 확률변수에 대한 [[분산,variance]]이 σ^^2^^ 다시 말해 σ,,X,,^^2^^ 였으며, 두 개의 확률변수에 대한 '''공분산'''의 기호는 σ,,X,Y,, (참고) [[상관계수,correlation_coefficient]]의 기호는 ρ,,X,Y,, 관련: [[분산,variance]] V(X) [[상관계수,correlation_coefficient]] Corr(X, Y) ---- '''공분산'''의 정의 x와 y의 공분산을 c,,xy,,라 하면 $c_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}$ (통계가 빨라지는 수학력) 즉, 아주 rough하게, [[분산,variance]] 식에 제곱 꼴 xx(=x^^2^^)이 있다면 공분산은 그 자리에 xy. 구체적으로는, 분산의 $(x_i-\bar{x})^2$ 자리에 공분산은 $(x_i-\bar{x})(y_i-\bar{y})$ 가 오는 그런 꼴. 식 모양을 분산과 비교해본다면, x의 분산 $V_x = \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}$ y의 분산 $V_y = \frac{(y_1-\bar{y})^2+(y_2-\bar{y})^2+\cdots+(y_n-\bar{y})^2}{n}$ x와 y의 공분산 $c_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})}{n}$ ---- // ㄷㄱㄱ Week 9-1 p7 '''Covariance''': * One simple value to represent the relation between two random variables * Represent how two random variables vary together $\text{Cov}[X,Y]$ $=\text{E}[(X-\mu_X)(Y-\mu_Y)]$ $=\text{E}[XY]-\text{E}[X]\text{E}[Y]$ // 위의 $\text{E}[XY]$ 를 correlation(상관관계? [[상관,correlation]]?)이라고 한다. 바로 밑에도 나오지만 $r$ 로 표기한다. $\sigma_{X,Y}=r_{X,Y}-\mu_X \mu_Y$ Uncorrelated: When $\text{Cov}[X,Y]=0$ .... // uncorrelated = [[상관,correlation]]이 없는? 암튼 '''공분산'''의 값이 [[영,zero]] 이것은 두 확률변수의 독립(see [[확률변수,random_variable#s-2]] and [[독립성,independence#s-3]])과 밀접. 공분산이 $\text{Cov}[X,Y]=\text{E}[XY]-\text{E}[X]\text{E}[Y]$ 인데 두 확률변수가 독립 iff $\text{E}[XY]=\text{E}[X]\text{E}[Y]$ 이므로, 두 확률변수가 독립이면 그들의 '''공분산'''이 0이 되는 것. 성질들: $\text{Cov}[aX,bY]=ab\text{Cov}[X,Y]$ ... // 스케일 된 확률변수의 경우. - 공분산의 스케일링 속성 - scaling property of covariance $\text{Cov}[X,X]=\text{Var}[X]$ ... // [[분산,variance]]과 같다 이 다음에 다루는 것은 [[상관계수,correlation_coefficient]]. 저것은 '''공분산'''을 [[분산,variance]]으로 scale한 것. ('''Covariance''' scaled by variance) 저것의 값은 -1에서 1 사이. (Strictly between -1 and 1) 저것의 식은 $\rho_{X,Y}=\frac{\text{Cov}[X,Y]}{\sqrt{\text{Var}[X]\text{Var}[Y]}}$ ---- 확률변수 X, Y에 대해 $E(X)=\mu_X$ 와 $E(Y)=\mu_Y$ 가 존재하면 X와 Y의 '''공분산'''은 $\mathrm{Cov}(X,Y):=E[(X-\mu_X)(Y-\mu_Y)]$ $\textrm{Cov}(x,y)=\frac1N\sum(x_i-\bar{x})(y_j-\bar{y})$ ---- 두 확률변수의 관계를 보여주는 값. 확률변수 X, Y가 같이 변하는 정도를 나타내는 값. 확률변수 X, Y에 대해 X가 변할 때 Y가 변하는 정도를 나타내는 값. $(X-\mu_x)(Y-\mu_y)$ 의 [[평균,mean,average]]으로 정의. $\mathrm{Cov}(X,Y)=E[(X-\mu_x)(Y-\mu_y)]$ 여기서 $\mu_x,\mu_y$ 는 각각 $X,Y$ 의 [[기대값,expected_value]], $(X-\mu),(Y-\mu)$ 는 [[편차,deviation]]. 즉 편차의 곱의 평균으로 정의. [[이산확률변수,discrete_random_variable]]의 공분산: $\mathrm{Cov}(X,Y)=\sum_x \sum_y (x-\mu_x)(y-\mu_y)\cdot f(x,y)$ [[연속확률변수,continuous_random_variable]]의 공분산: $\mathrm{Cov}(X,Y)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x-\mu_x)(y-\mu_y)\cdot f(x,y) dxdy$ 기타 다음 식도 성립 $\mathrm{Cov}(X,Y)=E(XY)-E(X)E(Y)$ $\mathrm{Cov}(X,X)=E(X^2)-[E(X)]^2=\mathrm{Var}(X)$ 즉 같은 변수끼리의 '''공분산,covariance'''은 바로 [[분산,variance]]. X, Y가 서로 독립이면 E(XY)=E(X)E(Y)이다. 이 때, Cov(X,Y)=E(XY)-E(X)E(Y)=E(X)E(Y)-E(X)E(Y)=0 공분산은 X가 변할 때 Y가 변하는 정도와 관련되는데, X와 Y가 독립이면 값이 0이 나옴을 볼 수 있다. $\forall a,b,c,d\in\mathbb{R},$ Cov(aX, bY) = a b Cov(X, Y) Cov(X+a, Y+b) = Cov(X, Y) Cov(X, aX+b) = a Var(X) Cov(aX+b, cX+d) = a c Var(X) 공분산의 단점은 '어느 정도' 연관되어 있는지 그 단위/스케일에 대한 것. 강도(strength)를 잘 보여주지 못함. 이것을 개선한 것이 [[상관계수,correlation_coefficient]]. (공분산을 표준편차의 곱으로 나눔) tmp from http://blog.naver.com/mykepzzang/220838462884 ---- ${\rm Cov}(X,Y)\equiv E\left((X-E(X))(Y-E(Y))\right)$ $=E\left(XY-E(Y)X-E(X)Y+E(X)E(Y)\right)$ $=E(XY)-E(Y)E(X)-E(X)E(Y)+E(X)E(Y)$ $=E(XY)-E(X)E(Y)$ ## from http://www.kocw.net/home/search/kemView.do?kemId=1279832 경북대 확률과정 18. Expected value of a function of two random variables <> = 표본공분산 = [[표본공분산,sample_covariance]] $c=\frac1{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$ = 공분산행렬 covariance_matrix = [[공분산행렬,covariance_matrix]] Zeta:공분산_행렬 Google:공분산행렬 [[주성분분석,principal_component_analysis,PCA]]에서 쓰임 Up: [[공분산,covariance]] [[행렬,matrix]] = 공분산(covariance)과 상관계수(correlation coefficient) = 전제: $E(X)=\mu_X,\;E(Y)=\mu_Y$ 가 존재할 때 $\operatorname{Cov}(X,Y)=E\left[(X-\mu_X)(Y-\mu_Y)\right]$ 전제: ${\rm Var}(X)=\sigma_X^2$ 과 ${\rm Var}(Y)=\sigma_Y^2$ 가 각각 존재할 때 X와 Y의 상관계수는 $\rho(X,Y)=\rho_{XY}=\frac{{\rm Cov}(X,Y)}{\sqrt{{\rm Var}(X)}\sqrt{{\rm Var}(Y)}}$ Note: ${\rm Cov}(X,Y)=E(XY)-E(X)E(Y)$ ''from http://www.kocw.net/home/search/kemView.do?kemId=1162312 4장_확률변수와분포_분산'' TBW: 이걸 다음과 비교 [[자기공분산,autocovariance]]과 [[자기상관,autocorrelation]] or [[자기상관계수,autocorrelation_coefficient]] = 공분산의 성질 = Var(X) = Cov(X, X) Cov(X, Y) = Cov(Y, X) Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) tmp https://m.blog.naver.com/skkong89/222410656637 - Harvard 확률론기초 STAT-110 정리 = 분산과 공분산의 비교 = ||[[분산,variance]] ||$V(X)=E[(X-\mu)^2]$ [[br]] $V(X)=E(X^2)-\left[E(X)\right]^2$ || ||'''공분산,covariance''' ||$\operatorname{Cov}(X,Y)=E[(X-\mu_X)\cdot(Y-\mu_Y)]$ [[br]] $\operatorname{Cov}(X,Y)=E(X\cdot Y)-E(X)\cdot E(Y)$ || = 웹페이지 요약 DELME later.. = from 두산백과 $\mu=\sum_{i=1}^{m}\sum_{j=1}^{n}f_{ij}(x_i-\bar{x})(y_i-\bar{y})$ ---- from 수학백과 확률변수 X, Y의 [[기대값,expected_value]]을 각각 $\mu_X=E(X),\,\mu_Y=E(Y)$ 라 하면 공분산은 $\mathrm{Cov}(X,Y)=E((X-\mu_X)(Y-\mu_Y))$ $=E(XY)-E(X)E(Y)$ 공분산=0이면, 상관없다(uncorrelated) 두 확률변수가 독립이면, 공분산은 0이다. 그러나 역은 일반적으로 참이 아니다. 공분산을 각 변수의 표준편차로 나누면 상관계수(Corr(X, Y)) $\mathrm{Corr}(X,Y)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{V(X)V(Y)}}$ = 기타 = PL에서 covariance (그리고 contravariance) 에 대해서는 여길 참조 - [[WpEn:Covariance_and_contravariance_(computer_science)]] and https://everything2.com/title/covariance = tmp links ko = https://m.blog.naver.com/hafs_snu/220834890761 - 근데 Ross 내용이네. = Twins = [[WpKo:공분산]] [[WpEn:Covariance]] https://mathworld.wolfram.com/Covariance.html [https://terms.naver.com/entry.nhn?docId=1063348&cid=40942&categoryId=32215 두산백과: 공분산] [https://terms.naver.com/entry.nhn?docId=3404964&cid=47324&categoryId=47324 수학백과: 공분산] https://everything2.com/title/covariance [[Zeta:공분산]]