AKA 마코프 의사결정 과정, 마르코프 결정 프로세스
}
4-tuple로 정의함
: set of decision epochs
decision maker가 결정을 하는 시각들
T가 무한인가에 따라 유한 horizon 혹은 무한 horizon (지평선?)
: state space, set of states
: action space, set of actions
set of actions that are possible when the state of the system is
: transition probabilities
어떻게 시스템의 상태가 one decision epoch에서 다음으로 넘어가는지 명시(specify) (given that T is discrete)
: rewards
(from ㄷㅎㅈ 강의자료)
Decision rule
decision maker에게 decision epoch가 t일 때 action을 어떻게 정할 것인지 알려줌
Policy
Decision rule의
수열,sequence, for every decision epochs (δ
1, δ
2, …)
매 decision epoch마다 같은 결정법(decision rule)이 사용되면, π is called
stationary.
Value function
Maximum total expected reward starting in state
from
decision epoch onward
(무엇을?) 최대로 하는 action
를 찾으려면,
- 시각(period) t에서 기대되는 immediate reward
- 기대되는 최대의 전체 남은 rewards in periods t+1, t+2, ... (expected maximum total reward-to-go)
중에서 찾는다. CHK
Bellman optimality equation 이란 것을 언급함. 위의 것이 그거?
tmp bmks ko ¶
https://jrc-park.tistory.com/293
특정
시간,time t에서 MDP는
상태,state를
확률변수,random_variable Xt로 표현한다.
마르코프_연쇄,Markov_chain =
마르코프_과정,Markov_process이며, MDP는 MC(=MP)에 action
(액션,action. 행동,action? 작용,action은 물리쪽의 번역?)이 추가된 것이 전부다.
(이름에선 결정,decision이 추가)
상태전이분포,state_transition_distribution(
상태전이,state_transition(
상태,state 전이,transition)
분포,distribution) 식으로 놓고 보면 ... 인데 여기서 보다시피 action이 state와 독립이면 MDP는 MC와 동일.