#noindex Sub: [[자기정보,self-information]] [[상호정보,mutual_information]] [[information_gain]] https://everything2.com/title/information+gain - "IG(Y | X) = H(Y) - H(Y | X)" rel. [[엔트로피,entropy]] > [[조건부엔트로피,conditional_entropy]] [[상호정보,mutual_information]]와 동의어? (저기의 section 1 "Wikipedia 읽기" 참조.) chk [[WpKo:정보_이득]] { 에 따르면 (rechk later) 정보이론과 [[기계학습,machine_learning]]에서, '''information_gain'''은 KLD의 동의어 (see [[상대엔트로피,relative_entropy]] .. curr at [[엔트로피,entropy#s-1.10]]) 그러나 [[결정트리,decision_tree]]의 맥락에서 이 용어는 때때로 [[상호정보,mutual_information]]와 동의어로 사용되기도 한다고. 이 정보는 한 변수의 [[조건부분포,conditional_distribution]](curr goto [[확률분포,probability_distribution#s-8]])에서 다른 한 변수의 단일변수 확률분포에 대한 KLD의 [[기대값,expected_value]]이다. } [[WpSimple:Information_gain_in_decision_trees]] [[WpEn:Information_gain_in_decision_trees]] http://mlwiki.org/index.php/Information_Gain Google:information.gain [[information_loss]] - ? 이건 별거 안나옴, del ok. [[WpEn:Information_loss]] Google:information.loss information_processing - [[처리,processing]] { rel. [[과정,process]]? } information_propagation 정보전파? - 신경망(NN)관련해 언급됨. Srch:information_propagation Srch:propagation <> = 단어/표현 = codeword length of the output sequence. (Moser) tmp { 정보량 amount of information : 어떤 정보에 의해 대상에 관한 불확실성(엔트로피)이 어느 정도 감소하는가를 나타내는 양. ([[https://terms.naver.com/entry.naver?docId=815042&ref=y&cid=50376&categoryId=50376 src]]) 평균 정보량 average information content : 제한된 완전 사상계 중에서 어떤 사상이 발생했는가를 앎으로써 전해지는 정보 측도의 평균값. 수학적으로는 확률 p(x,,1,,), ···, p(x,,n,,)인 사상 집합 x,,1,,, ···, x,,n,,에 대한 엔트로피 H(x)는 개개의 사상 정보량 I(x,,1,,)의 기댓값(평균값)과 같다. (완전 사상계란, 그것을 구성하는 사상이 서로 배반이며, 모든 사상의 합집합이 전 사상과 일치하는 사상계를 말한다. - 표본공간의 [[분할,partition]]?) ([[https://terms.naver.com/entry.naver?docId=815886&ref=y&cid=42344&categoryId=42344 src]]) } self-information = information content = surprisal = Shannon information $I(x)$ $I_X(x)\equiv -\log[p_X(x)]$ see below. joint self-information $h(x,y)$ $h(x,y)=-\log_2 p(X=x,Y=y)$ see [[자기정보,self-information]] mutual information (MI) $I(X;Y)$ 상호정보, [[WpKo:상호의존정보]], 상호정보량 $I(X;Y)$ see below or [[상호정보,mutual_information]] pointwise mutual information (PMI) $\textrm{pmi}(x, y)$ 점 상호 정보, 점별 상호 정보량 등. $\textrm{pmi}(x, y)=\log\frac{P(x,y)}{P(x)P(y)}=\log\frac{P(x|y)}{p(x)}$ see below. [[여유도,redundancy]] = 확률(P)과 정보/정보량(I) = ''tmp from http://www.ktword.co.kr/abbr_view.php?nav=2&choice=map&id=781&m_temp1=3660'' { P(E)=1 → I(E)=0 결과를 확신할(P=1) 수 있으면, 정보는 없음 P(E,,1,,) < P(E,,2,,) → I(E,,1,,) > I(E,,2,,) 사건의 발생 확률이 낮을수록, 그 사건이 일어날 때 더 많은 정보가 생김 I(E,,1,,E,,2,,) = I(E,,1,,) + I(E,,2,,) 결합사건 E,,1,,, E,,2,,가 독립이면, 각 정보량을 더하면 됨 P(E)=1/2 → I(E)=1 (bit) 1비트의 정보량은 2 사건이 동일 확률일 때의 정보량과 같음 평균 정보량 = [[엔트로피,entropy]] } = Information content (self-information, surprisal, Shannon information 언급) = [[WpEn:Information_content]] 요약 at [[Date(2021-03-24T01:16:49)]] { Shannon의 self-information 정의는 다음 공리에 기초함 * 100% 확실한 것은 하나도 안 놀랍고(perfectly unsurprising) 정보가 없다 * 확률이 낮을수록 놀랍고(surprising) 정보가 많다 * 두 독립적인 [[사건,event]]들이 각각 따로 측정되면, 정보의 총량은 각 사건의 self-information의 합 [[사건,event]] $x,$ [[확률,probability]] $P$ 이면 information content는 $\mathrm{I}(x):=-\log_b[\mathrm{Pr}(x)]=-\log_b(P)$ Formally, given a [[확률변수,random_variable]] $X$ with [[확률질량함수,probability_mass_function,PMF]] $p_X(x),$ the '''self-information''' of measuring $X$ as [[결과,outcome]] $x$ is defined as $\mathrm{I}_X(x):=-\log[p_X(x)]=\log\left(\frac{1}{p_X(x)}\right)$ The Shannon [[엔트로피,entropy]] of the random variable $X$ above is defined as $\mathrm{H}(X)=\sum_x -p_X(x)\log[p_X(x)]$ $=\sum_x p_X(x)\mathrm{I}_X(x)$ $=\mathrm{E}[\mathrm{I}_X(X)]$ by definition equal to the expected information content of measurement of $X.$ ||rare event ||more surprising ||yield more information content || * 100% 일어나는 사건 : self-information이 $-\log1=0$ : 전혀 놀랍지 않음 : 정보가 없음 * 0% 일어나는 사건 : self-information이 $-\log0=\infty$ : 무한히 놀라움 Example 동전던지기, fair coin toss, [[베르누이_시행,Bernoulli_trial]]으로 $p_X(H)=p_X(T)=\frac12$ the associated information gain is $I_X(H)=-\log_2p_X(H)=-\log_2\frac12=1$ $I_X(T)=-\log_2p_X(T)=-\log_2\frac12=1$ (shannon) 그리하여 H가 나오는 사건, T가 나오는 사건 각각 얻는 정보량은 1 shannon이다. 주사위던지기, fair die roll $X\sim\textrm{DU}[1,6]$ : discrete uniform random variable, with PMF $p_X(k)=\begin{cases}\frac16,&k\in\lbrace 1,2,3,4,5,6 \rbrace\\0,&\textrm{otherwise}\end{cases}$ 4가 나올 확률은 $p_X(4)=\frac16$ 그 information content는 $I_X(4)=-\log_2 p_X(4)=-\log_2\frac16 \approx 2.585 \textrm{ Sh}$ (이하 생략) } = 자기정보 vs 상호정보 = 자기정보 self-information / 상호정보 mutual information https://blog.naver.com/mes194/221248692912 자기정보를 평균낸 것이 entropy? chk. 평균상호정보 and 조건부엔트로피 conditional entropy 는 다음 참조 https://blog.naver.com/mes194/221248710267 = 자기정보 self-information = See [[자기정보,self-information]] = 상호정보 Mutual Information (MI) = Moved to [[상호정보,mutual_information]]. = 점상호정보 Pointwise Mutual Information (PMI) = Moved to [[상호정보,mutual_information#s-5]]. = 정보이론 information theory = http://biohackers.net/wiki/InformationTheory == 정보이론의 연쇄법칙 chain rule == see [[연쇄법칙,chain_rule#s-5]] WpKo:정보_이론 == Wikipedia: 정보이론 information theory == [[WpEn:Information_theory]] 읽고 요약 at [[Date(2021-04-01T13:21:07)]] { 역사: 1920년대 Harry Nyquist and Ralph Hartley, 1940년대 Claude Shannon의 업적에 의해 수립. 정보의 핵심 [[측도,measure]]는 [[엔트로피,entropy]]. 이것은 [[불확실성,uncertainty]], [[확률변수,random_variable]] 값, [[확률과정,random_process]]의 [[결과,outcome]]에 관련. 1948년 Shannon의 논문이자 서적 [[WpEn:A_Mathematical_Theory_of_Communication]] Historical background ''Certain Factors Affecting Telegraph Speed'' (Nyquist 1924) $W=K\log m$ where $W$ : speed of transmission of intelligence $m$ : number of different voltage levels to choose from at each time step $K$ : constant ''Transmission of Information'' (Hartley 1928) $H=\log S^n=n\log S$ where $H$ : 정보량 $S$ : 가능한 symbol의 수 $n$ : 전송에서 symbol의 수 Entropy of an information source Shannon Entropy $H$ $H=-\sum_i p_i \log_2 (p_i)$ where $p_i$ : probability of occurrence of the i-th possible value of the source symbol; [[확률질량함수,probability_mass_function,PMF]] base가 2이므로 단위가 bits (per symbol)임. [[WpEn:Binary_entropy_function]] 그래프 왼쪽에서 } = Links ko = 정보이론 요약 ([[기계학습,machine_learning]] 관점) http://sanghyukchun.github.io/62/ 정보이론 기초 https://ratsgo.github.io/statistics/2017/09/22/information/ 머신러닝과 정보이론: 작동원리의 이해 – 과학의 지평 https://horizon.kias.re.kr/18474/ 데이터의 정보기하학: 통계학적인 학습 – 과학의 지평 https://horizon.kias.re.kr/18951/ = Links en = Visual Information Theory (2015) https://colah.github.io/posts/2015-09-Visual-Information 그림으로 설명 = Keywords = [[모호도,equivocation]] [[불확실성,uncertainty]] perplexity (w) 곤혹도, 혼잡도, [[Zeta:퍼플렉서티]] [[WtEn:perplexity]] [[교차엔트로피,cross_entropy]] H와의 관계: perplexity $P=2^{-H}$ http://foldoc.org/perplexity - 여기선 [[기하평균,geometric_mean]]으로 설명 https://developers.google.com/machine-learning/glossary?hl=ko#perplexity - 머신러닝용어집 ... Ndict:perplexity [[해밍_거리,Hamming_distance]] [[해밍_코드,Hamming_code]] [[엔트로피,entropy]] [[상호정보,mutual_information]] [[조건부엔트로피,conditional_entropy]] [[조건부상호정보,conditional_mutual_information]]의 연쇄법칙에 대해 [[연쇄법칙,chain_rule]] 참조. = History = Shannon의 Paper ''A Mathematical Theory of Communication'': http://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf 정보이론 시작 계기: Reliable [[통신,communication|communication]] over unreliable [[채널,channel|channel]] (Shannon 1948) = Related: = [[자료,data]] ('''정보'''는 추상적, data는 물리적/구체적) [[신호,signal]] (data의 전자기적인 표현) [[메시지,message]] [[코드,code]] [[통신,communication]] [[채널,channel]] [[엔트로피,entropy]] [[이산수학,discrete_math]] [[전산학,compsci]] [[정보및부호화이론,information_and_coding_theory]] [[정보보안,infosec]] { 암호화encryption 복호화decryption Compare: encoding/decoding ([[코드,code#s-2]]) [[해시함수,hash_function]] } 물리적으로, 정보는 [[에너지,energy]], [[열,heat]]과 관련 - 란다우어_원리 Landauer_principle { '''Landauer's principle''' Google:란다우어의+원리 Google:Landauer+principle } = Twins = https://encyclopediaofmath.org/wiki/Information_theory https://encyclopediaofmath.org/wiki/Information,_transmission_of https://encyclopediaofmath.org/wiki/Information,_amount_of https://everything2.com/title/information https://everything2.com/title/information+theory http://www.linfo.org/information.html = semi-twins; tmp. = [[자료,data]]관련 https://everything2.com/title/Data+is+not+information https://everything2.com/title/algorithmic+information+theory https://everything2.com/title/Gregory+Chaitin = TODO = [[Date(2023-01-07T18:18:13)]] WpEn:Quantities_of_information 에 '다른 명칭'들 정리 잘해놓음 { 문단순으로 보면 self-information = surprisal conditional_entropy = equivocation // [[모호도,equivocation]] KLD = information_gain = information_divergence = relative_entropy mutual_information = transinformation } = rel; mklink = '''정보'''는 분명 [[기억,memory]]의 대상이며 [[메모리,memory]]에 저장됨.