단위,unit와 관련없는
축도?(분명
측도,measure)를 얻기 위해, 두 확률변수 X, Y가 있을 때, X, Y의
공분산,covariance을, X, Y의
표준편차,standard_deviation의 곱으로 나누어 준 값을
X, Y의 상관계수라 한다.
물백과사전(https://terms.naver.com/entry.naver?docId=3393642&cid=60289&categoryId=60289)
//QQQ 그럼 dimensionless?
x, y의 상관계수: x, y의 공분산을 (x의 표준편차와 y의 표준편차의 곱)으로 나눈 것.
분석 대상은 사전에 따라 변인(variable), 확률변수(random variable) 등. 개수는 반드시 2개.
정의. x와 y의
상관계수를 r이라고 하면
여기서
상관계수 r은 반드시
범위에 있다.
(통계가 빨라지는 수학력)
상관계수는
에서
사이의 값을 가짐.
에 가까울수록: '음의 상관관계가 강하다' //
상관관계 or
상관,correlation
에 가까울수록: '양의 상관관계가 강하다'
(kmooc 자막에서)
스케일링 속성은 매우 중요합니다.
예를 들어 신장과 체중의 공분산을 구하고 싶을때,
관계의 본질이 같더라도 다른 단위의 사용은 다른 공분산을 만듭니다.
cm높이와 kg무게 사이의 공분산과
inch의 높이와 pound의 무게 사이의 공분산은 다릅니다.
하지만 본질적인 관계는 같습니다.
이것은 데이터 분석에서 불필요한 혼란을 야기합니다.
이것이 사람들이 상관 계수를 발명한 이유입니다.
상관계수란,
공분산,covariance을
분산,variance으로 scale한 것. (
Covariance scaled by variance)
값은 -1에서 1 사이. (Strictly between -1 and 1)
식은
그림 설명에서 Cov가 공분산, R이
상관계수.
(네번째 마지막 그림 관련)
공분산,covariance은 scale down하면 첫번째 그림보다 값이 작아지지만,
상관계수는 scale-free이므로 첫번째 그림과 마찬가지다.
3. tmp CLEANUP ¶
.......TBW S는무엇인지
CHK
{
}
4. 값, 값의 분석 ¶
- 항상 -1과 +1사이
- 0이면 두 변수가 무관하다는 뜻
- 모두 양의 기울기의 직선 위에 있으면, 1
- 모두 음의 기울기의 직선 위에 있으면, -1
- -1에 매우 가까우면, 강한 음의 상관관계
- +1에 매우 가까우면, 강한 양의 상관관계
- 0에 매우 가까우면, 상관관계가 거의 없음
5. tmp tomove ¶
from
경제학사전(https://terms.naver.com/entry.naver?docId=779102&cid=42085&categoryId=42085)
{
* 두 변량 사이 상관관계가 원인관계를(X, Y 중 하나가 다른 하나의 원인이나 설명요인임을) 뜻하는 것은 아니다.
* 이런 분석을
상관분석,correlation_analysis(curr see
상관,correlation)이라 한다.
상관계수 σxy의 수학적 정의는 // rho 아닌지???
(단 σ
x>0, σ
y>0) 여기서,
// (공분산
설명)
한편
공분산,covariance은
가
라는 동시분포(
joint distribution)에 따를 때, 각 변량
에서 그
평균치 를 뺀 곱의
기대치로 정의된다. 즉
이 때
가
- 양이면 두 변량 X, Y의 변화는 대체로 같은 방향성을 가지며,
- 음이면 반대의 방향성을 갖는다.
// (상관계수
의 성질)
- (이게 무슨 기호?????)
-
- 이면 X, Y 사이에는 상관관계가 전혀 없다.
- 이면 X, Y에는 완전한 양/음의 상관관계, 즉 선형관계(linear relationship)가 있다. (See 선형성,linearity)
(이하생략)
}
6. 공분산과.... 의 관계 서술 정확히. ¶
TBW: 공분산과의 비교.
와
의 공분산을
라 하고
와
의 표준편차를 각각
라 하면,
상관계수는
분모는 √를 씌운 것이므로 음수가 아니다. 항상 양수이다. (0은?...편차가 하나도 없는 자료에선 상관계수를 구할 수 없다???)
분자인
공분산,covariance은 음수 또는 양수가 될 수 있다.
8. 여러 상관계수 ¶
(주의) 상관계수는 한 종류가 아님. 대체적으로 Pearson상관계수가 가장 널리 쓰이는 듯 싶고, 나머지는 나중에 필요하면 페이지 분리... TODO