베이즈_정리,Bayes_theorem

베이즈 정리 Bayes' theorem, AKA 베이즈 법칙 Bayes' rule



1. ?

보통 P(B|A)에서 P(A|B)로 갈 때 쓰이나? CHK
결과 관측에서 원인을 추론할 때 유용?

// tmp from 마스터 알고리즘 책
P(원인|결과) = P(원인) × P(결과|원인) / P(결과)

ex. 지난달 100명 환자, 14명 독감 걸렸고, 20명은 열이 있었고, 11명은 독감에 걸리고 열도 있었다.
독감이 걸렸을 때 열이 나는 조건부 확률 = 11/14 // 조건부확률,conditional_probability
모든 환자 중 열이 나는 확률 = 20/100
독감 걸린 환자 중 열이 있는 확률 = 11/14
독감 and 열이 나는 확률 = P(독감, 발열) = P(독감) × P(발열|독감) = 14/100 × 11/14 = 11/100
이 값을 다른 방식으로 구할 수 있다.
P(독감, 발열) = P(발열) × P(독감|발열) // 조건부확률의 정의에 따라
// 그런데 위의 P(독감, 발열)과 식이 같다. 그걸 가져와서 쓰면
P(발열) × P(독감|발열) = P(독감) × P(발열|독감)
양변을 P(발열) 로 나누면
P(독감|발열) = P(독감) × P(발열|독감) / P(발열)
// 이걸 계산하면, 14/100 × 11/14 ÷ 20/100 = 11/20


조건부확률의 정의에 따라
$P(A|B)=\frac{P(A\cap B)}{P(B)}$
$P(B|A)=\frac{P(A\cap B)}{P(A)}$
위 두 식에 따라,
$P(A|B)P(B)=P(A\cap B)=P(B|A)P(A)$
이다. (같은 내용 조건부확률,conditional_probability 페이지에도 있음)
여기에서 베이즈 법칙(Bayes' rule)의 가장 기본적인 형태를 얻는다.
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
(Schaum's outline)


Bayes' Theorem or Rule

$A_1,A_2,\cdots,A_n$ 이 상호배제 사건들(mutually exclusive events)이며
그것들의 합집합,union표본공간,sample_space $S$ 라 하자. (i.e. 사건 하나는 반드시 일어난다.)
그렇다면 임의의 사건 $A$ 에 대해 다음 중요한 정리가 있다.
$P(A_k|A)=\frac{P(A_k)P(A|A_k)}{\sum_{j=1}^n P(A_j)P(A|A_j)}$
이것은 발생 가능한 여러 사건들 - $A_1,A_2,\cdots,A_n$ 이 일어날 확률을 찾을 수 있게 해준다.
이 때문에 베이즈 정리는 가끔 theorem on the probability of causes라고도 불린다.

(Schaum Prob and Stat p9)


두 가지 꼴: 간단한 형태, 일반적인 형태

$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$

$P(A|B)=\frac{P(A)P(B|A)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)}$

두번째는 A가 분할,partition

....
CHK

Bayes' rule:
$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
어떤 조건부 확률은 역 조건부 확률(reversed conditional probability)을 사용하여 표현할 수 있다는 것.
[http]src p9

2. Cor.

$P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)P(B|A)}{P(A)P(B|A)+P(A^C)P(B|A^C)$

조건부확률,conditional_probability 관련. 두 사건,event A, B에 대해 P(B|A)에서 P(A|B)로 갈 수 있게 해 준다. 두 사건과 두 결과,outcome(A and Ac)의 경우만 보면,
$P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}$

3. 정리

TOCLEANUP

A1, ..., An: partition of S with P(Ai)>0

P(Ai|B)
= P(Ai ∩ B) / P(B)
= {P(Ai)P(B|Ai)} / {P(A1)P(B|A1) + ... + P(An)P(B|An)}


$P(A_m|B)=\frac{P(B|A_m)P(A_m)}{P(B)}=\frac{P(B|A_m)P(A_m)}{\sum\nolimits_{n=1}^{n}P(B|A_n)P(A_n)}$

이 식의 의미는 사건 $B$ 가 일어난 조건 하에서 사건 $A_m$ 이 일어날 확률을 구하는 데 있어, 역조건확률, 즉 사건 $A_m$ 이 일어난 조건하의 사건 $B$ 의 확률들을 사용하여 표현할 수 있다는 것.



B1, B2, …, Bn을 표본 공간 S의 분할,partition이라고 하자. 사건 A가 발생했다고 가정할 때 사건 Bj가 일어날 확률은?
조건부확률,conditional_probability의 정의에서 다음 식을 얻을 수 있다.

$P(B_j|A)=\frac{P(A\cap B_j)}{P(A)}=\frac{P(A|B_j)P(B_j)}{\sum_{k=1}^{n}P(A|B_k)P(B_k)}$

P(A)를 대체하기 위해 전확률정리,total_probability_theorem를 사용했다.

(Leon-Garcia p.65)


표본공간,sample_space $S$분할,partition
$A_1,A_2,\cdots,A_n$
이고
$P(A_k)>0\quad(k=1,2,\cdots,n)$
이고 사건,event $B$
$P(B)>0$
인 임의의 사건이라고 하면,

$P(A_i|B)=\frac{P(A_i)\cdot P(B|A_i)}{\textstyle\sum_{k=1}^{n}P(A_k)\cdot P(B|A_k)$
$(i=1,2,\cdots,n)$

왜냐하면, 조건부확률,conditional_probability 정의에 의해
$P(A_i|B)=\frac{P(A_i\cap B)}{P(B)}$
분자에 조건부확률의 정의를, 분모에 전확률정리,total_probability_theorem를 적용하면
$=\frac{P(A_i)\cdot P(B|A_i)}{\textstyle\sum_{k=1}^{n}P(A_k)\cdot P(B|A_k)$



서로 배반인(exclusive) $n$ 개의 사건,event $A_1,\cdots,A_n$
$\sum P(A_i)=1$ 을 만족할 때,
어떤 사건 $E$ 가 일어났다는 가정에서의 조건부확률,conditional_probability $P(A_i|E)$ 에 관한 정리
$P(A_i|E)=\frac{P(E|A_i)P(A_i)}{\sum_{j=1}^{n}P(E|A_j)P(A_j)}$

([https]from)


두 조건부확률 $P(A|B)$$P(B|A)$ 의 관계를 설명해 줌.

Ai가 S의 분할일 때
조건부확률의 정의에서,
$P(A_i|B)=\frac{P(A_i\cap B)}{P(B)}$
$P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}$
한편 전확률정리,total_probability_theorem에 의하면
$P(B)=\sum_i P(B\cap A_i) = \sum_i P(A_i)P(B|A_i)$
이므로, 이것을 분모에 대입하면
$P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_i P(A_i)P(B|A_i)}$


4. 사전확률/사후확률/가능도가 포함된 설명

Bayes formula
사건 A가 일어날 때, (일어났을 때?) 사건 B의 조건부확률,conditional_probability
$P(B|A)=\frac{P(B\cap A)}{P(A)}=\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|B^c)P(B^c)}$
사건 A가 일어날 때, (일어났을 때?) 서로 배반,disjoint인 사건들 $B_j\,(j=1,\ldots,n)$ 에 대한 확률
$P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum_1^n P(A|B_j) P(B_j)}$
즉,
$P(B_j|A)\propto P(A|B_j)P(B_j)$

이것의 뜻은, A가 일어난 경우, $B_j$ 가 일어날 확률은 $P(A|B_j)$$P(B_j)$ 의 곱에 비례한다는 것.

$A$ 라는 사실이 관측되고 나면,
$B_j$ 에 대한 믿음의 정도는,
$B_j$ 가 참인 경우의 $A$ 의 발생가능성(가능도)과 이전의 믿음의 정도의 곱으로 표현할 수 있다는 것.


tmp from [https]namu 나이브베이지안 2.1; chk
{
두 사건 A, B에 대해 베이즈 정리는
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
여기서
$P(A)$ : 사전확률 prior probability - 원래부터 알고 있던 값
$P(B)$ : 사후확률 posterior probability
$P(A|B)$ : 사후확률 posterior probability (2022-02-12 에 보니까 고쳐져있네)
베이즈 정리는 사전확률을 가지고 사후확률을 예측하거나 추론하는 데 쓸 수 있다는 의의가 있다.

사건이 n개라면,
$P(A|B)=P(A|B_1\cap B_2\cap \cdots \cap B_n)=\frac{P(B_1\cap B_2\cap\cdots\cap B_n|A)P(A)}{P(B)}$
(여러 개의 사건으로 구성된다 = 교집합)인 이유? QQQ
이 때 나이브 베이지안 알고리듬은 순진한, 즉, B를 구성하는 모든 사건들이 서로 독립사건이라는 가정을 한다. 이렇게 하면 우변이 계산이 쉬운 형태로 변한다.
$P(A|B_1\cap B_2\cap \cdots \cap B_n)=\frac{P(B_1|A)P(B_2|A)\cdots P(B_n|A)P(A)}{P(B)}$

우리가 알고 있는 것은 $P(A)$ 뿐, 나머지는 문제 상황에 따라 적절하게 결정해야 함.
대표적 방법: 가능한 선택지 중에서 가장 높은 $P(A|B)$ 를 주는 $P(B_i|A)$ 들을 찾는 사후확률최대화 maximum a posteriori 방법 //Google:maximum.a.posteriori
간단한 예를 들면,
$P(B_i|A)$ 가 모두 표준편차,standard_deviation $\sigma$ 를 갖는 정규분포함수(see 정규분포,normal_distribution) $N(\mu,\sigma)$ 라고 가정하고,
적절한 최적화,optimization방법을 동원해,
$P(A|B)$최대화,maximization시키는 정규분포함수의 평균 $\mu$ 를 찾는 것이다.
최적화문제를 풀 때 분모의 $P(B)$ 는 결과에 영향을 미치지 않으므로
  • 생략하거나
  • 상수 $K$ 로 표현해두고 푸는 경우가 대부분이다.
}

5. 예제

3대의 기계 M1 M2 M3
각각 전 제품의 20%, 30%, 50% 생산
각 기계의 생산 불량률: 1%, 2%, 3%
무작위로 뽑은 하나의 제품이 불량이었다면, 이 불량품이 M2에서 생산되었을 확률은?

sol.
S: 표본공간
B: 제품이 불량품일 사건
Ai: 제품이 Mi에 의하여 생산된 사건

제품이 Mi에 의하여 생산되었을 확률
P(A1)=0.2
P(A2)=0.3
P(A3)=0.5
기계 Mi에 의해 생산된 한 제품이 불량일 확률
P(B|A1)=0.01
P(B|A2)=0.02
P(B|A3)=0.03
베이즈 정리에 의해
$P(A_2|B)=\frac{P(A_2)P(B|A_2)}{\textstyle\sum_{k=1}^3 P(A_k)P(B|A_k)}$
$=\frac{0.3\times0.02}{0.2\times0.01+0.3\times0.02+0.5\times0.03}=0.26$

(from http://www.kocw.net/home/search/kemView.do?kemId=1162312 베이즈 정리)

6. 베이즈_확률론,Bayesian_probability


알아내기 쉬운 확률을 가지고 알아내기 어려운 확률을 추론해 낼 수 있음


조건부확률에 의해,
$\Pr(B|A)=\frac{\Pr(A\cap B)}{\Pr(A)}=\frac{\Pr(B)\Pr(A|B)}{\Pr(A)}$
다시 말해
$\Pr(B|A)=\frac{\Pr(A|B)\Pr(B)}{\Pr(A)}$

For disjoint events $B_1,B_2,\cdots,B_n$ ,
$\Pr(B_i|A)=\frac{\Pr(A|B_i)\Pr(B_i)}{\sum_i\Pr(A|B_i)\Pr(B_i)}$


WpKo:베이즈_확률론


표본공간 $S$$A_1,A_2,\cdots,A_n$ 로 분할된다면,
(즉 $\bigcup_{i=1}^{n}A_i=S$ 이고 $A_1,A_2,\cdots,A_n$ 가 서로 배반이면)
(집합의_분할,set_partition)

$P(A_k|B)=\frac{P(B|A_k)P(A_k)}{\sum_{i=1}^{n}P(B|A_i)P(A_i)}$
이 성립.

따름정리
$P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^C)P(A^C)}$


8. Bayesian network

Bayesian_network
베이즈_네트워크 ?

belief_network, causal_network 도 같은 의미라고. (aistudy)
Bayes_network, decision_network 도 같음. (wpen)

DAG = directed_acyclic_graph = directed acyclic 그래프,graph




9. 나이브 베이지안, naive Bayesian


tmp from [https]namu 나이브 베이지안 알고리즘
{
베이즈_정리,Bayes_theorem를 이용한 확률적 기계학습,machine_learning 알고리듬. 사전확률을 기반으로 사후확률을 추론하는 확률적 예측을 할 때, 모든 사건이 독립이라는 순진한(naive) 가정을 하고 있기 때문에, hence the name.

}

10. Links en

Bayes Theorem: A Framework for Critical Thinking
https://neilkakkar.com/Bayes-Theorem-Framework-for-Critical-Thinking.html

Bayes theorem, the geometry of changing beliefs
3Blue1Brown https://www.youtube.com/watch?v=HZGCoVF3YvM


How To Update Your Beliefs Systematically - Bayes’ Theorem
Veritasium https://youtu.be/R13BD8qKeTg