상호정보,mutual_information

The reduction in uncertainty due to another random variable is called the mutual information. For two random variables X and Y,
$I(X;Y)=H(X)-H(X|Y)=\sum_{x,y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$

두 확률변수 사이의 의존성dependence 측도,measure.

성질
(Cover Thomas 1.4 p6-7)

상호정보는 더 일반적인 양인 상대엔트로피,relative_entropy $D(p\mid\mid q)$ 의 특수한 경우이다. 저것은 두 pmf p와 q 사이 "거리,distance"의 측도,measure이며 다음과 같이 정의된다.
$D(p\mid\mid q)=\sum_x p(x)\log\frac{p(x)}{q(x)}$
상대엔트로피는 true metric은 아니지만, metric의 성질 약간은 갖고 있다. 특히, 항상 음이 아니며, (p=q) ⇔ (값이 0) 이 된다.
(Cover Thomas p9)


Mutual information is the communication rate in the presence of noise. Also, as we shall point out, mutual information corresponds to the increase in the doubling rate of wealth given side information. (Cover Thomas p. xvii)

통신,communication에서 상호 정보량은, 채널,channel로 입력되는 정보량 가운데 실제로 채널 출력까지 전달된 정보량과 관련됨. (통신 페이지의 필기 참조)




1. (Wikipedia 읽기)

from WpEn:Mutual_information
{
MI는 PMI의 기대값,expected_value이다.
AKA information gain

확률변수의 pair $(X,Y)$ 의 joint distribution이 $P_{(X,Y)}$ 이고 marginal distribution이 $P_X$ and $P_Y$ 일 때, mutual information은 이렇게 정의된다.
$I(X;Y)=D_{\rm KL}(P_{(X,Y)}\mid\mid P_X\otimes P_Y)$
여기서
$D_{\rm KL}$ : Kullback-Leibler divergence

확률질량함수,probability_mass_function,PMF로 나타내면
$I(X;Y)=\sum\sum p(x,y)\log\left( \frac{p(x,y)}{p(x)p(y)} \right)$
확률밀도함수,probability_density_function,PDF로 나타내면
$I(X;Y)=\int\int p(x,y)\log\left( \frac{p(x,y)}{p(x)p(y)} \right) dx dy$

nonnegativity:
$I(X;Y)\ge 0$
symmetry:
$I(X;Y)=I(Y;X)$

conditional and joint 엔트로피,entropy와의 관계
$I(X;Y)$
$\equiv H(X)-H(X|Y)$
$\equiv H(Y)-H(Y|X)$
$\equiv H(X)+H(Y)-H(X,Y)$
$\equiv H(X,Y)-H(X|Y)-H(Y|X)$
이렇게 상호정보를
$H(X),H(Y)$ (marginal_entropy)
$H(X|Y),H(Y|X)$ (conditional_entropy)
$H(X,Y)$ (joint_entropy)
로 나타낼 수 있다.

$\begin{align}I(X;Y)&=H(X)-H(X|Y)\\&=H(Y)-H(Y|X)\end{align}$
위에서 언급했듯 I가 non-negative이므로,
$H(X)\ge H(X|Y),$
$H(Y)\ge H(Y|X).$
증명은 생략. Wikipedia 참조.

(Intuitively, ~) 직관적으로 보면 엔트로피 H(Y)는 확률변수(RV)의 불확실성(uncertainty)와 관련있으므로,
H(Y|X)는
  • X가 Y에 대해 말하지 않는 것의 측도.
  • X가 알려진 후에도 남아 있는, Y에 대해 불확실한 정도.

그래서 $H(X;Y)=H(Y)-H(Y|X)$ 를 다음과 같이 읽을 수 있다.
(Y의 불확실성) - (X가 알려진 뒤에도 남은 Y의 불확실성)
the amount of uncertainty in Y, minus the amount of uncertainty in Y which remains after X is known
또는
Y의 불확실성 중에서, X를 알게 되어 제거된 것
the amount of uncertainty in Y which is removed by knowing X

KLD와의 관계 생략. TBW.

Conditional mutual information $I(X;Y|Z)$
Multivariate mutual information 생략.
}

2. tmp

from https://people.cs.umass.edu/~elm/Teaching/Docs/mutInf.pdf
{
두 확률변수 X, Y가 있고 joint distribution이 P(X, Y)이면 mutual information
$I(X;Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}P(x,y)\log\frac{P(x,y)}{P(x)P(y)}$
}

3. tmp; 상호정보량

// tmp from https://blog.naver.com/pmw9440/222007185331 오타로 추정되는거 수정함.
{
상호정보량(mutual information)이란?


I(X, Y)는 0 이상의 값을 가짐.
0을 가진다면 두 변수가 독립임을 의미.

상호정보량의 특성
① 대칭성(symmetry)
$I(X,Y)=I(Y,X)$

② 엔트로피와의 관계
엔트로피: 모든 사건 정보량의 기대값,expected_value.
$I(X,Y)=H(X)-H(X|Y)$
$=H(Y)-H(Y|X)$
$=H(X)+H(Y)-H(X,Y)$
$=H(X,Y)-H(X|Y)-H(Y|X)$
여기서
$H(X),\,H(Y)$ : 주변엔트로피
$H(X|Y),\,H(Y|X)$ : 조건부엔트로피
$H(X,Y)$ : 결합엔트로피
$H(X)=-\sum_x p(x) \log_2 p(X)$

③ 쿨백-라이블러 발산(Kullback-Leibler divergence, KLD)과의 관계
두 확률 $p(x),q(x)$ 가 있을 때 KLD 연산 KL(p‖q)의 정의는
$KL(p\mid\mid q)=\int p(x)\ln\frac{p(x)}{q(x)}dx$
주변확률 $P(X),P(Y)$ 와 결합확률 $P(X,Y)$ 일 때
$I(X,Y)=KL(P(X,Y) \mid\mid P(X)P(Y) )$
}

tmp 상호정보량 from https://bskyvision.com/774
{
$I(X;Y)$
$=\sum_{x,y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$
$=\sum_{x,y}p(x,y)\log p(x,y) -\sum_{x,y}p(x,y)\log p(x)-\sum_{x,y}p(x,y)\log p(y)$
$=-H(X,Y)+H(X)+H(Y)$
$=H(X)-H(X|Y)$
$=H(Y)-H(Y|X)$
$I(Y;X)$

그리하여 symmetry가 성립.
상호정보량을 두 확률변수가 공유하는 엔트로피로 해석해도 된다고.

두 확률변수가 독립이라면, 즉 p(x,y)=p(x)p(y)라면, 상호정보량은 0.

결합확률분포표 있는 예제는 사이트 참조.
}

tmp from https://newsight.tistory.com/119
{
X와 Y가 서로 독립인지 아닌지에 대한 정도를 정보량으로 측정한 것.

$I_p(X;Y)$
$=\sum_{x,y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$
(x, y가 서로 독립이면 분자 분모가 약분되어 정보량이 1이 됨)
$=I_p(Y;X)$
$=\sum_{x,y}p(x,y) \left( \log\frac{p(x,y)}{p(y)} - \log p(x) \right)$
$=-H(X|Y)+H(X)$
$=\sum_{x,y}p(x,y) \left( \log\frac{p(x,y)}{p(x)} - \log p(y) \right)$
$=-H(Y|X)+H(Y)$
$=\sum_{x,y}p(x,y) \left( \log p(x,y) - \log p(x)-\log p(y) \right)$
$=-H(X,Y)+H(X)+H(Y)$
}
----
tmp from https://blog.naver.com/jinp7/221782462308 4. mutual information
{
두 확률변수의 marginal distribution이 actual joint distribution에서 divergent한지를 측정하는 metric.
두 확률변수가 서로 어떤 관계를 가지고 있는지 나타내는 정보량 중 하나.
  • 두 확률변수가 완전히 독립이면 값이 0
  • 두 확률변수가 밀접한 관련이 있으면 값이 커짐
  • 두 확률변수가 역의 방향으로 관련이 있으면 값이 작아짐
두 확률변수가 얼마나 서로 의존적인가(mutually dependent한가), 얼마나 mutual하게 information을 많이 가지고 있느냐를 측정할 수 있는 도구가 되므로, 이를 mutual information이라 한다.
$I(X;Y)=\sum_{x\in X} \sum_{y\in Y} p(x,y) \log\left( \frac{p(x,y)}{p(x)p(y)} \right)$
$=H(X)+H(Y)-H(X,Y)$
이전 관측 x를 통해 새로운 관측 y의 불확실성,uncertainty이 얼마나 reduce하는지를 의미하는 것과 동일하다.
그 외에, 세번째 변수 조건하에서 두 확률변수를 비교하는 conditional mutual information도 있다.
}

4. 조건부상호정보 conditional mutual information

5. 점상호정보 Pointwise Mutual Information (PMI)

pointwise_mutual_information,PMI
pointwise mutual information (PMI)
점별 상호 정보량, 점 상호 정보 등의 번역어가 있음.

$\textrm{PMI}(x,y)=\log\frac{P(x\cap y)}{p(x)p(y)}=\log\frac{p(x|y)}{p(x)}=\log\frac{p(y|x)}{p(y)}$

점별상호정보량(pointwise mutual information, PMI) 계산
tmp 요약 from https://bab2min.tistory.com/546 오타로 추정되는거 수정함.
{
확률변수 A,B의 상호정보량: I(A;B)
사건 a,b가 동시에 일어날 확률: P(a,b)
사건 a,b의 점별상호정보량: PMI(a;b) 이라면,
이산확률변수의 경우 (P is pmf)
$I(A;B)=\sum_{a\in A}\sum_{b\in B}P(a,b)\cdot PMI(a;b)$
연속확률변수의 경우 (P is pdf)
$I(A;B)=\int_A\int_B P(a,b)\cdot PMI(a;b)\,da\,db$

PMI계산식은
$PMI(x;y)=\log\frac{p(x,y)}{p(x)p(y)}=\log\frac{p(x|y)}{p(x)}=\log\frac{p(y|x)}{p(y)}$

간단한 예제는 사이트 참고.
}


MI(X, Y) = expected value of the PMI.

성질
symmetric
pmi(x; y) = pmi(y; x)

}

6. bmks ko

https://process-mining.tistory.com/141
대충 내용:
배경을 알아보고(상관계수,correlation_coefficient의 한계 때문에 MI가 등장)
정의를 알아보고,
그걸 조건부엔트로피,conditional_entropy로도 표현해보고
NMI = normalized_mutual_information 알아보고
MIC = maximal_information_coefficient 알아봄