정보,information

Sub:
자기정보,self-information
상호정보,mutual_information

information_gain
https://everything2.com/title/information gain - "IG(Y | X) = H(Y) - H(Y | X)"
rel. 엔트로피,entropy > 조건부엔트로피,conditional_entropy
상호정보,mutual_information와 동의어? (저기의 section 1 "Wikipedia 읽기" 참조.) chk
WpKo:정보_이득
{ 에 따르면 (rechk later)
정보이론과 기계학습,machine_learning에서, information_gain은 KLD의 동의어 (see 상대엔트로피,relative_entropy .. curr at 엔트로피,entropy#s-1.10)
그러나
결정트리,decision_tree의 맥락에서 이 용어는 때때로 상호정보,mutual_information와 동의어로 사용되기도 한다고.
이 정보는 한 변수의 조건부분포,conditional_distribution(curr goto 확률분포,probability_distribution#s-8)에서 다른 한 변수의 단일변수 확률분포에 대한 KLD의 기대값,expected_value이다.
}
WpSimple:Information_gain_in_decision_trees
WpEn:Information_gain_in_decision_trees
http://mlwiki.org/index.php/Information_Gain
Google:information.gain
information_loss - ? 이건 별거 안나옴, del ok.
information_processing - 처리,processing { rel. 과정,process? }
information_propagation 정보전파? - 신경망(NN)관련해 언급됨. Srch:information_propagation Srch:propagation



1. 단어/표현

codeword
length of the output sequence. (Moser)

tmp
{
정보량 amount of information
: 어떤 정보에 의해 대상에 관한 불확실성(엔트로피)이 어느 정도 감소하는가를 나타내는 양. ([https]src)

평균 정보량 average information content
: 제한된 완전 사상계 중에서 어떤 사상이 발생했는가를 앎으로써 전해지는 정보 측도의 평균값. 수학적으로는 확률 p(x1), ···, p(xn)인 사상 집합 x1, ···, xn에 대한 엔트로피 H(x)는 개개의 사상 정보량 I(x1)의 기댓값(평균값)과 같다.
(완전 사상계란, 그것을 구성하는 사상이 서로 배반이며, 모든 사상의 합집합이 전 사상과 일치하는 사상계를 말한다. - 표본공간의 분할,partition?)
([https]src)
}

self-information = information content = surprisal = Shannon information $I(x)$
$I_X(x)\equiv -\log[p_X(x)]$
see below.

joint self-information $h(x,y)$
$h(x,y)=-\log_2 p(X=x,Y=y)$
see 자기정보,self-information

mutual information (MI) $I(X;Y)$
상호정보, WpKo:상호의존정보, 상호정보량
$I(X;Y)$
see below or 상호정보,mutual_information

pointwise mutual information (PMI) $\textrm{pmi}(x, y)$
점 상호 정보, 점별 상호 정보량 등.
$\textrm{pmi}(x, y)=\log\frac{P(x,y)}{P(x)P(y)}=\log\frac{P(x|y)}{p(x)}$
see below.


2. 확률(P)과 정보/정보량(I)

tmp from http://www.ktword.co.kr/abbr_view.php?nav=2&choice=map&id=781&m_temp1=3660
{
P(E)=1 → I(E)=0
결과를 확신할(P=1) 수 있으면, 정보는 없음

P(E1) < P(E2) → I(E1) > I(E2)
사건의 발생 확률이 낮을수록, 그 사건이 일어날 때 더 많은 정보가 생김

I(E1E2) = I(E1) + I(E2)
결합사건 E1, E2가 독립이면, 각 정보량을 더하면 됨

P(E)=1/2 → I(E)=1 (bit)
1비트의 정보량은 2 사건이 동일 확률일 때의 정보량과 같음

평균 정보량 = 엔트로피,entropy

}


3. Information content (self-information, surprisal, Shannon information 언급)

WpEn:Information_content 요약 at 2021-03-24
{
Shannon의 self-information 정의는 다음 공리에 기초함
  • 100% 확실한 것은 하나도 안 놀랍고(perfectly unsurprising) 정보가 없다
  • 확률이 낮을수록 놀랍고(surprising) 정보가 많다
  • 두 독립적인 사건,event들이 각각 따로 측정되면, 정보의 총량은 각 사건의 self-information의 합

사건,event $x,$ 확률,probability $P$ 이면 information content는
$\mathrm{I}(x):=-\log_b[\mathrm{Pr}(x)]=-\log_b(P)$

Formally, given a 확률변수,random_variable $X$
with 확률질량함수,probability_mass_function,PMF $p_X(x),$
the self-information of measuring $X$ as 결과,outcome $x$ is defined as
$\mathrm{I}_X(x):=-\log[p_X(x)]=\log\left(\frac{1}{p_X(x)}\right)$
The Shannon 엔트로피,entropy of the random variable $X$ above is defined as
$\mathrm{H}(X)=\sum_x -p_X(x)\log[p_X(x)]$
$=\sum_x p_X(x)\mathrm{I}_X(x)$
$=\mathrm{E}[\mathrm{I}_X(X)]$
by definition equal to the expected information content of measurement of $X.$

rare event more surprising yield more information content
  • 100% 일어나는 사건 : self-information이 $-\log1=0$ : 전혀 놀랍지 않음 : 정보가 없음
  • 0% 일어나는 사건 : self-information이 $-\log0=\infty$ : 무한히 놀라움

Example
동전던지기, fair coin toss, 베르누이_시행,Bernoulli_trial으로
$p_X(H)=p_X(T)=\frac12$
the associated information gain is
$I_X(H)=-\log_2p_X(H)=-\log_2\frac12=1$
$I_X(T)=-\log_2p_X(T)=-\log_2\frac12=1$ (shannon)
그리하여 H가 나오는 사건, T가 나오는 사건 각각 얻는 정보량은 1 shannon이다.

주사위던지기, fair die roll
$X\sim\textrm{DU}[1,6]$ : discrete uniform random variable, with PMF
$p_X(k)=\begin{cases}\frac16,&k\in\lbrace 1,2,3,4,5,6 \rbrace\\0,&\textrm{otherwise}\end{cases}$
4가 나올 확률은
$p_X(4)=\frac16$
그 information content는
$I_X(4)=-\log_2 p_X(4)=-\log_2\frac16 \approx 2.585 \textrm{ Sh}$

(이하 생략)
}


4. 자기정보 vs 상호정보

자기정보 self-information / 상호정보 mutual information
https://blog.naver.com/mes194/221248692912

자기정보를 평균낸 것이 entropy? chk.

평균상호정보 and 조건부엔트로피 conditional entropy 는 다음 참조
https://blog.naver.com/mes194/221248710267


5. 자기정보 self-information

6. 상호정보 Mutual Information (MI)

7. 점상호정보 Pointwise Mutual Information (PMI)

8. 정보이론 information theory

8.1. 정보이론의 연쇄법칙 chain rule

8.2. Wikipedia: 정보이론 information theory

WpEn:Information_theory 읽고 요약 at 2021-04-01
{
역사: 1920년대 Harry Nyquist and Ralph Hartley, 1940년대 Claude Shannon의 업적에 의해 수립.
정보의 핵심 측도,measure엔트로피,entropy. 이것은 불확실성,uncertainty, 확률변수,random_variable 값, 확률과정,random_process결과,outcome에 관련.

1948년 Shannon의 논문이자 서적 WpEn:A_Mathematical_Theory_of_Communication

Historical background

Certain Factors Affecting Telegraph Speed (Nyquist 1924)
$W=K\log m$
where
$W$ : speed of transmission of intelligence
$m$ : number of different voltage levels to choose from at each time step
$K$ : constant

Transmission of Information (Hartley 1928)
$H=\log S^n=n\log S$
where
$H$ : 정보량
$S$ : 가능한 symbol의 수
$n$ : 전송에서 symbol의 수

Entropy of an information source

Shannon Entropy $H$
$H=-\sum_i p_i \log_2 (p_i)$
where
$p_i$ : probability of occurrence of the i-th possible value of the source symbol;
확률질량함수,probability_mass_function,PMF
base가 2이므로 단위가 bits (per symbol)임.

WpEn:Binary_entropy_function 그래프 왼쪽에서

}


9. Links ko



머신러닝과 정보이론: 작동원리의 이해 – 과학의 지평
https://horizon.kias.re.kr/18474/

데이터의 정보기하학: 통계학적인 학습 – 과학의 지평
https://horizon.kias.re.kr/18951/

10. Links en

Visual Information Theory (2015)
https://colah.github.io/posts/2015-09-Visual-Information
그림으로 설명

12. History

Shannon의 Paper A Mathematical Theory of Communication: http://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf

정보이론 시작 계기:
Reliable communication over unreliable channel
(Shannon 1948)

13. Related:


}

물리적으로, 정보는 에너지,energy, 열,heat과 관련 - 란다우어_원리 Landauer_principle { Landauer's principle Google:란다우어의 원리 Google:Landauer principle }

16. TODO

2023-01-08
WpEn:Quantities_of_information
에 '다른 명칭'들 정리 잘해놓음
{
문단순으로 보면

self-information = surprisal
conditional_entropy = equivocation // 모호도,equivocation
KLD = information_gain = information_divergence = relative_entropy
mutual_information = transinformation
}

17. rel; mklink

정보는 분명 기억,memory의 대상이며 메모리,memory에 저장됨.