상관계수,correlation_coefficient

기호
$r,\;r_{x,y}$
Corr(X, Y)
$\rho_{X,Y}$

상관,correlation의 정도가 얼마인지 정량적으로 값을 매긴/분석한 것.

변량,variate이 두 개가 있을 때, 두 변량 사이 상관관계가(상관,correlation이) 어느 정도인지를 나타내는 수치(계수).
//QQQ 이름이 상관수 상관치 상관수치 상관값 ... 이 아닌 상관계수,coefficient인 이유?

단위,unit와 관련없는 축도?(분명 측도,measure)를 얻기 위해, 두 확률변수 X, Y가 있을 때, X, Y의 공분산,covariance을, X, Y의 표준편차,standard_deviation의 곱으로 나누어 준 값을 X, Y의 상관계수라 한다.
$r=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2}\sqrt{\sum(y_i-\bar{y})^2}}$
[https]물백과사전
//QQQ 그럼 dimensionless?

x, y의 상관계수: x, y의 공분산을 (x의 표준편차와 y의 표준편차의 곱)으로 나눈 것.[1]

분석 대상은 사전에 따라 변인(variable), 확률변수(random variable) 등. 개수는 반드시 2개.


정의. x와 y의 상관계수를 r이라고 하면
$r=\frac{c_{xy}}{s_x\cdot s_y}$
여기서
$c_{xy}$ : x와 y의 공분산,covariance
$s_x,\,s_y$ : 각각 x와 y의 표준편차,standard_deviation

상관계수 r은 반드시 $-1\le r \le 1$ 범위에 있다.

(통계가 빨라지는 수학력)


상관계수란?
두 변량(variable?) x,y에 대하여, 상관계수 Rxy
$R_{xy}=\frac{S_{xy}}{S_x S_y} = \frac{ \sum(x_i-\bar{x})(y_i-\bar{y}) }{ \sqrt{ \sum(x_i-\bar{x})^2 }\sqrt{ \sum(y_i-\bar{y})^2 }}$

두 변량의 공분산,covariance을 각각의 표준편차,standard_deviation로 나눈 값으로,
단위에 따라 값이 변하는 공분산의 단점을 보완한 개념.

상관계수는 $-1$ 에서 $1$ 사이의 값을 가짐.
$-1$ 에 가까울수록: '음의 상관관계가 강하다' // 상관관계 or 상관,correlation
$+1$ 에 가까울수록: '양의 상관관계가 강하다'

// tmp from 이상엽 https://youtu.be/DmOdYauHdK0?t=895


// ㄷㄱㄱ Week 9-1 p8
// 공분산,covariance에 이어서 언급됨.

(kmooc 자막에서)
스케일링 속성은 매우 중요합니다.
예를 들어 신장과 체중의 공분산을 구하고 싶을때,
관계의 본질이 같더라도 다른 단위의 사용은 다른 공분산을 만듭니다.
cm높이와 kg무게 사이의 공분산과
inch의 높이와 pound의 무게 사이의 공분산은 다릅니다.
하지만 본질적인 관계는 같습니다.
이것은 데이터 분석에서 불필요한 혼란을 야기합니다.
이것이 사람들이 상관 계수를 발명한 이유입니다.

상관계수란, 공분산,covariance분산,variance으로 scale한 것. (Covariance scaled by variance)
값은 -1에서 1 사이. (Strictly between -1 and 1)
식은
$\rho_{X,Y}=\frac{\text{Cov}[X,Y]}{\sqrt{\text{Var}[X]\text{Var}[Y]}}$

https://i.imgur.com/9h05gA8l.png

그림 설명에서 Cov가 공분산, R이 상관계수.
(네번째 마지막 그림 관련) 공분산,covariance은 scale down하면 첫번째 그림보다 값이 작아지지만, 상관계수는 scale-free이므로 첫번째 그림과 마찬가지다.




1. tmp from https://umbum.dev/1006

$r_{XY}=\frac{\sum_{i}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i}^{n}(X_i-\bar{X})^2}\sqrt{\sum_{i}^{n}(Y_i-\bar{Y})^2}}$

X, Y는 vector.

3. tmp CLEANUP

.......TBW S는무엇인지
$=\frac1{n-1}\sum_{i=1}^{n}\left(\frac{x_i-\bar{x}}{S_x}\right)\left(\frac{y_i-\bar{y}}{S_y}\right)$
$=\frac1{S_xS_y}............$

CHK
{
$\operatorname{Corr}(X,Y)=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}$
}

tmp from https://throwexception.tistory.com/1037
{
피어슨의 상관계수
공분산,covariance을 두 변수의 표준편차,standard_deviation로 표준화 시킨 값.
공분산 : Cov(x, y) = E(xy) - E(x)E(y)
상관계수 : Corr(x, y) = Cov(x, y)/(std(x) * std(y))
-1에서 1사이의 값을 가지며, |corr|이 1에 가까울수록 강한 선형 관계를 가짐.
}

4. 값, 값의 분석

항상 다음 부등식을 만족.
$-1\le r\le 1$
여기서 양 극단의
+1은
−1은
그리고 0은 선형 상관 관계가 없음을 뜻함.

상관,correlation 상관계수,correlation_coefficient
양의 상관관계 $r>0$
음의 상관관계 $r<0$
무상관 $r=0$
가장 센 잠재적 일치(?) $\pm1$
가장 센 불일치 $0$
완전한 비례관계 $+1$
완전한 반비례관계 $-1$
관계없음 $0$
[2] [3] [4]

  • 항상 -1과 +1사이
  • 0이면 두 변수가 무관하다는 뜻
  • 모두 양의 기울기의 직선 위에 있으면, 1
  • 모두 음의 기울기의 직선 위에 있으면, -1

  • -1에 매우 가까우면, 강한 음의 상관관계
  • +1에 매우 가까우면, 강한 양의 상관관계
  • 0에 매우 가까우면, 상관관계가 거의 없음

5. tmp tomove

from [https]경제학사전
{
* 두 변량 사이 상관관계가 원인관계를(X, Y 중 하나가 다른 하나의 원인이나 설명요인임을) 뜻하는 것은 아니다.
* 이런 분석을 상관분석,correlation_analysis(curr see 상관,correlation)이라 한다.
상관계수 σxy의 수학적 정의는 // rho 아닌지???
$\rho_{xy}=\frac{\sigma_{xy}}{\sigma_x \sigma_y}$
(단 σx>0, σy>0) 여기서,
// (공분산 $\sigma_{xy}$ 설명)
한편 공분산,covariance$X,Y$$f(x,y)$ 라는 동시분포(joint distribution)에 따를 때, 각 변량 $(X,Y)$ 에서 그 평균치 $(\mu_x,\mu_y)$ 를 뺀 곱의 기대치로 정의된다. 즉
$\sigma_{xy}\equiv\mathrm{E}[(X-\mu_x)(Y-\mu_y)]$
$\equiv \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x-\mu_y)(y-\mu_x) f(x,y) dx dy$
이 때 $\sigma_{xy}$
  • 양이면 두 변량 X, Y의 변화는 대체로 같은 방향성을 가지며,
  • 음이면 반대의 방향성을 갖는다.

// (상관계수 $\rho_{xy}$ 의 성질)
  1. (이게 무슨 기호?????)
  2. $-1 \le \rho_{xy} \le 1$
  3. $\rho_{xy}=0$ 이면 X, Y 사이에는 상관관계가 전혀 없다.
  4. $\rho_{xy}=\pm 1$ 이면 X, Y에는 완전한 양/음의 상관관계, 즉 선형관계(linear relationship)가 있다. (See 선형성,linearity)

(이하생략)
}

6. 공분산과.... 의 관계 서술 정확히.

TBW: 공분산과의 비교.

공분산,covariance Cov(X, Y)
계산식이 유사한 면이 있음. 비교하여 서술. TBW

$x$$y$ 의 공분산을 $c_{xy}$ 라 하고
$x$$y$ 의 표준편차를 각각 $s_x,\,s_y$ 라 하면, 상관계수
$\frac{c_{xy}}{s_x\cdot s_y}$

분모는 √를 씌운 것이므로 음수가 아니다. 항상 양수이다. (0은?...편차가 하나도 없는 자료에선 상관계수를 구할 수 없다???)
분자인 공분산,covariance은 음수 또는 양수가 될 수 있다.


7. 상관계수의 해석

두 확률변수 X, Y의 상관계수 ρ(X, Y)는
$\rho(X,Y)=\frac{\textrm{Cov}(X,Y)}{\sigma_X \sigma_Y}$

$\sigma_X,\sigma_Y$ 는 각각 X와 Y의 표준편차,standard_deviation.
상관계수의 범위,range$[-1,1].$
1 완전 비례
-1 완전 반비례
0 관련이 없음 (독립)

성질은 생략.



8. 여러 상관계수

(주의) 상관계수는 한 종류가 아님. 대체적으로 Pearson상관계수가 가장 널리 쓰이는 듯 싶고, 나머지는 나중에 필요하면 페이지 분리... TODO

적률상관계수 product-moment correlation coefficient
일반적인 상관계수.
AKA 피어슨(Pearson) 적률상관계수
$r_{XY}=\frac{S_{XY}}{S_X S_Y}$
see [https]교육학용어사전
see [https]교육평가 용어사전
//이름에 적률,moment과는 어떤관계인지 chk
http://biohackers.net/wiki/PearsonCorrelation (tmp)
WpKo:피어슨_상관_계수
WpSimple:Pearson_product-moment_correlation_coefficient - del ok
WpEn:Pearson_correlation_coefficient

표본상관계수,sample_correlation_coefficient
https://blog.naver.com/mykepzzang/220929023044 (표본상관계수 sample correlation coefficient) : 공분산을 정규화,normalization시킨 것

순위상관계수 rank correlation coefficient
[https]간호학대사전
"순위상관계수에는 통계학상 비모수법에 속하는 Spearman순위 상관계수와 Kendall순위상관계수가 있다"
WpSimple:Rank_correlation
WpEn:Rank_correlation
checkout https://bioinformaticsandme.tistory.com/58

Kendall 상관계수
WpEn:Kendall_rank_correlation_coefficient
위 rank_correlation_coefficient 의 일종

Spearman 상관계수
WpKo:스피어먼_상관_계수
WpEn:Spearman's_rank_correlation_coefficient


AKA cross-correlation coefficient[5]
cross- 이것은 상호상관,cross-correlation 참조.

Compare:
결정계수,determination_coefficient


----