The reduction in uncertainty due to another random variable is called the
mutual information. For two random variables X and Y,
두 확률변수 사이의 의존성dependence
측도,measure.
성질
(Cover Thomas 1.4 p6-7)
Mutual information is the communication rate in the presence of noise. Also, as we shall point out, mutual information corresponds to the increase in the doubling rate of wealth given side information. (Cover Thomas p. xvii)
1. (Wikipedia 읽기) ¶
위에서 언급했듯 I가 non-negative이므로,
증명은 생략. Wikipedia 참조.
(Intuitively, ~) 직관적으로 보면 엔트로피 H(Y)는 확률변수(RV)의 불확실성(uncertainty)와 관련있으므로,
H(Y|X)는
- X가 Y에 대해 말하지 않는 것의 측도.
- X가 알려진 후에도 남아 있는, Y에 대해 불확실한 정도.
그래서
를 다음과 같이 읽을 수 있다.
(Y의 불확실성) - (X가 알려진 뒤에도 남은 Y의 불확실성)
the amount of uncertainty in Y, minus the amount of uncertainty in Y which remains after X is known
또는
Y의 불확실성 중에서, X를 알게 되어 제거된 것
the amount of uncertainty in Y which is removed by knowing X
KLD와의 관계 생략. TBW.
Conditional mutual information
Multivariate mutual information 생략.
}
3. tmp; 상호정보량 ¶
I(X, Y)는 0 이상의 값을 가짐.
0을 가진다면 두 변수가 독립임을 의미.
상호정보량의 특성
① 대칭성(symmetry)
② 엔트로피와의 관계
엔트로피: 모든 사건 정보량의
기대값,expected_value.
여기서
: 주변엔트로피
: 조건부엔트로피
: 결합엔트로피
③ 쿨백-라이블러 발산(Kullback-Leibler divergence, KLD)과의 관계
두 확률
가 있을 때 KLD 연산 KL(p‖q)의 정의는
주변확률
와 결합확률
일 때
}
두 확률변수가 독립이라면, 즉 p(x,y)=p(x)p(y)라면, 상호정보량은 0.
결합확률분포표 있는 예제는 사이트 참조.
}
4. 조건부상호정보 conditional mutual information ¶
5. 점상호정보 Pointwise Mutual Information (PMI) ¶
점별상호정보량(pointwise mutual information, PMI) 계산
tmp 요약 from
https://bab2min.tistory.com/546 오타로 추정되는거 수정함.
{
확률변수 A,B의 상호정보량: I(A;B)
사건 a,b가 동시에 일어날 확률: P(a,b)
사건 a,b의 점별상호정보량: PMI(a;b) 이라면,
이산확률변수의 경우 (P is pmf)
연속확률변수의 경우 (P is pdf)
PMI계산식은
간단한 예제는 사이트 참고.
}
MI(X, Y) = expected value of the PMI.
성질
symmetric
pmi(x; y) = pmi(y; x)
}