AKA 마코프 의사결정 과정, 마르코프 결정 프로세스
Sub:
partially-observable Markov decision process // partial_observability
MKL
마르코프_과정,Markov_process 중에서 ...
마르코프_연쇄,Markov_chain
강화학습,reinforcement_learning
마르코프_성질,Markov_property
DQN and Q학습,Q-learning Q-learning Q-learning Q-learning
{
topics, mkl/del.
partially-observable Markov decision process // partial_observability
MKL
마르코프_과정,Markov_process 중에서 ...
마르코프_연쇄,Markov_chain
강화학습,reinforcement_learning
마르코프_성질,Markov_property
DQN and Q학습,Q-learning Q-learning Q-learning Q-learning
{
topics, mkl/del.
timestep
상태,state
partial_observability =,partial_observability .
상태,state
partial_observability =,partial_observability .
{
partial observability
partially observable adj.
"partial observability"
partial observability
Up: observability =,observability . observability
See Deep Recurrent Q-Learning for Partially Observable MDPspartial observability
partially observable adj.
"partial observability"
partial observability
Up: observability =,observability . observability
{
관찰|관측 가능성 , 가관찰성 가관측성, ... TBD... observability observability observability definition of observability
REL 관측,observation and/or 관찰,observation
Sub:
total? full? observability
partial_observability
}
}관찰|관측 가능성 , 가관찰성 가관측성, ... TBD... observability observability observability definition of observability
REL 관측,observation and/or 관찰,observation
Sub:
total? full? observability
partial_observability
}
}
4-tuple로 정의함
: set of decision epochs
decision maker가 결정을 하는 시각들
T가 무한인가에 따라 유한 horizon 혹은 무한 horizon (지평선?)
decision maker가 결정을 하는 시각들
T가 무한인가에 따라 유한 horizon 혹은 무한 horizon (지평선?)
: state space, set of states
: action space, set of actions
set of actions that are possible when the state of the system is
set of actions that are possible when the state of the system is
: transition probabilities
어떻게 시스템의 상태가 one decision epoch에서 다음으로 넘어가는지 명시(specify) (given that T is discrete)
어떻게 시스템의 상태가 one decision epoch에서 다음으로 넘어가는지 명시(specify) (given that T is discrete)
: rewards
(from ㄷㅎㅈ 강의자료)
Decision rule
decision maker에게 decision epoch가 t일 때 action을 어떻게 정할 것인지 알려줌
decision maker에게 decision epoch가 t일 때 action을 어떻게 정할 것인지 알려줌
Policy
Decision rule의 수열,sequence, for every decision epochs (δ1, δ2, …)
매 decision epoch마다 같은 결정법(decision rule)이 사용되면, π is called stationary.
Decision rule의 수열,sequence, for every decision epochs (δ1, δ2, …)
매 decision epoch마다 같은 결정법(decision rule)이 사용되면, π is called stationary.
Value function
Maximum total expected reward starting in state from decision epoch onward
(무엇을?) 최대로 하는 action 를 찾으려면,
Maximum total expected reward starting in state from decision epoch onward
(무엇을?) 최대로 하는 action 를 찾으려면,
- 시각(period) t에서 기대되는 immediate reward
- 기대되는 최대의 전체 남은 rewards in periods t+1, t+2, ... (expected maximum total reward-to-go)
중에서 찾는다. CHK- 기대되는 최대의 전체 남은 rewards in periods t+1, t+2, ... (expected maximum total reward-to-go)
Bellman optimality equation 이란 것을 언급함. 위의 것이 그거?
tmp bmks ko ¶
https://jrc-park.tistory.com/293
특정 시간,time t에서 MDP는 상태,state를 확률변수,random_variable Xt로 표현한다.
마르코프_연쇄,Markov_chain = 마르코프_과정,Markov_process이며, MDP는 MC(=MP)에 action(액션,action. 행동,action? 작용,action은 물리쪽의 번역?)이 추가된 것이 전부다. (이름에선 결정,decision이 추가)
상태전이분포,state_transition_distribution(상태전이,state_transition(상태,state 전이,transition) 분포,distribution) 식으로 놓고 보면 ... 인데 여기서 보다시피 action이 state와 독립이면 MDP는 MC와 동일.
마르코프_연쇄,Markov_chain = 마르코프_과정,Markov_process이며, MDP는 MC(=MP)에 action(액션,action. 행동,action? 작용,action은 물리쪽의 번역?)이 추가된 것이 전부다. (이름에선 결정,decision이 추가)
상태전이분포,state_transition_distribution(상태전이,state_transition(상태,state 전이,transition) 분포,distribution) 식으로 놓고 보면 ... 인데 여기서 보다시피 action이 state와 독립이면 MDP는 MC와 동일.
tmp twins en:
https://developers.google.com/machine-learning/glossary?hl=ko#markov-decision-process-mdp
https://developers.google.com/machine-learning/glossary?hl=ko#markov-decision-process-mdp