마르코프_결정과정,Markov_decision_process,MDP

AKA 마코프 의사결정 과정, 마르코프 결정 프로세스



timestep
상태,state
partial_observability =,partial_observability .
{
partial observability
partially observable adj.

"partial observability"
Ggl:partial observability

Up: observability =,observability . observability
{
관찰|관측 가능성 , 가관찰성 가관측성, ... TBD... Ndict:observability Naver:observability Ggl:observability Ggl:definition of observability

REL 관측,observation and/or 관찰,observation

Sub:
total? full? observability
partial_observability
}
}

See Ggl:Deep Recurrent Q-Learning for Partially Observable MDPs

}


4-tuple로 정의함


$\{T, S, A_s, p_t(\cdot | s, a), r_t(s, a): t \in T, s \in S, a \in A_s\}$

$T \in [0,\infty)$ : set of decision epochs
decision maker가 결정을 하는 시각들
T가 무한인가에 따라 유한 horizon 혹은 무한 horizon (지평선?)

$S$ : state space, set of states

$A$ : action space, set of actions
set of actions that are possible when the state of the system is $s\in S$

$p_t(\cdot|s,a)$ : transition probabilities
어떻게 시스템의 상태가 one decision epoch에서 다음으로 넘어가는지 명시(specify) (given that T is discrete)

$r_t(s,a)$ : rewards

(from ㄷㅎㅈ 강의자료)

Decision rule $\delta_t$
decision maker에게 decision epoch가 t일 때 action을 어떻게 정할 것인지 알려줌

Policy $\pi$
Decision rule의 수열,sequence, for every decision epochs (δ1, δ2, …)
매 decision epoch마다 같은 결정법(decision rule)이 사용되면, π is called stationary.

Value function $v_t(s_t)$
Maximum total expected reward starting in state $s_t$ from $t$ decision epoch onward
$v_t(s_t)=\max_{a_t\in {A_s}_t}\left\lbrace r_t(s_t,a_t)+E[v_{t+1}(s_{t+1})]\right\rbrace$
(무엇을?) 최대로 하는 action $a_t$ 를 찾으려면,
$r_t(\cdots)$ - 시각(period) t에서 기대되는 immediate reward
$E[\cdots]$ - 기대되는 최대의 전체 남은 rewards in periods t+1, t+2, ... (expected maximum total reward-to-go)
중에서 찾는다. CHK

Bellman optimality equation 이란 것을 언급함. 위의 것이 그거?