AKA 마코프 의사결정 과정, 마르코프 결정 프로세스

Sub:
partially-observable Markov decision process // partial_observability

partially-observable Markov decision process

MKL
마르코프_과정,Markov_process 중에서 ...
마르코프_연쇄,Markov_chain
강화학습,reinforcement_learning
마르코프_성질,Markov_property
DQN and Q학습,Q-learning Q-learning

Q-learning

Q-learning
{
topics, mkl/del.

REL
마르코프_결정과정,Markov_decision_process,MDP

timestep
상태,state
partial_observability =,partial_observability .

{
partial observability
partially observable adj.

"partial observability"

partial observability

Up: observability =,observability . observability

{
관찰|관측 가능성 , 가관찰성 가관측성, ... TBD...

observability

definition of observability

REL 관측,observation and/or 관찰,observation

Sub:
total? full? observability
partial_observability
}

}

See

Deep Recurrent Q-Learning for Partially Observable MDPs

}

4-tuple로 정의함

$\{T, S, A_s, p_t(\cdot | s, a), r_t(s, a): t \in T, s \in S, a \in A_s\}$

$T \in [0,\infty)$ : set of decision epochs
decision maker가 결정을 하는 시각들
T가 무한인가에 따라 유한 horizon 혹은 무한 horizon (지평선?)

$S$ : state space, set of states

$A$ : action space, set of actions
set of actions that are possible when the state of the system is $s\in S$

$p_t(\cdot|s,a)$ : transition probabilities
어떻게 시스템의 상태가 one decision epoch에서 다음으로 넘어가는지 명시(specify) (given that T is discrete)

$r_t(s,a)$ : rewards

(from ㄷㅎㅈ 강의자료)

Decision rule $\delta_t$
decision maker에게 decision epoch가 t일 때 action을 어떻게 정할 것인지 알려줌

Policy $\pi$
Decision rule의 수열,sequence, for every decision epochs (δ₁, δ₂, …)
매 decision epoch마다 같은 결정법(decision rule)이 사용되면, π is called stationary.

Value function $v_t(s_t)$
Maximum total expected reward starting in state $s_t$ from $t$ decision epoch onward
$v_t(s_t)=\max_{a_t\in {A_s}_t}\left\lbrace r_t(s_t,a_t)+E[v_{t+1}(s_{t+1})]\right\rbrace$
(무엇을?) 최대로 하는 action $a_t$ 를 찾으려면,

$r_t(\cdots)$ - 시각(period) t에서 기대되는 immediate reward
$E[\cdots]$ - 기대되는 최대의 전체 남은 rewards in periods t+1, t+2, ... (expected maximum total reward-to-go)

중에서 찾는다. CHK

Bellman optimality equation 이란 것을 언급함. 위의 것이 그거?

[edit]

tmp bmks ko ¶

https://jrc-park.tistory.com/293

특정 시간,time t에서 MDP는 상태,state를 확률변수,random_variable X_t로 표현한다.
마르코프_연쇄,Markov_chain = 마르코프_과정,Markov_process이며, MDP는 MC(=MP)에 action(액션,action. 행동,action? 작용,action은 물리쪽의 번역?)이 추가된 것이 전부다. (이름에선 결정,decision이 추가)
상태전이분포,state_transition_distribution(상태전이,state_transition(상태,state 전이,transition) 분포,distribution) 식으로 놓고 보면 ... 인데 여기서 보다시피 action이 state와 독립이면 MDP는 MC와 동일.

Twins:

마르코프_결정_과정

https://itwiki.kr/w/마르코프_결정_프로세스

tmp twins en:
https://developers.google.com/machine-learning/glossary?hl=ko#markov-decision-process-mdp

tmp bmks ko:
https://daheekwon.github.io/MDP/

Up: 마르코프_과정,Markov_process 결정,decision 과정,process 결정과정,decision_process

VeryGoodWiki

This wiki is very good.
Minus sign: −

마르코프_결정과정,Markov_decision_process,MDP

tmp bmks ko ¶