편집 요약 없음 |
편집 요약 없음 |
||
1번째 줄: | 1번째 줄: | ||
'''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, | '''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. 대부분의 [[강화학습]] 방법은 이 마르코프 결정 과정에서 최선의 정책을 찾아내는 것을 목표로 한다. [[러시아]]의 [[수학자]] 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 [[마르코프 연쇄]]에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다. | ||
== 정의 == | == 정의 == |
2020년 6월 10일 (수) 03:50 판
마르코프 결정 과정(Markov Decision Process, MDP)는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. 대부분의 강화학습 방법은 이 마르코프 결정 과정에서 최선의 정책을 찾아내는 것을 목표로 한다. 러시아의 수학자 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 마르코프 연쇄에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다.
정의
마르코프 결정 과정은 튜플 [math]\displaystyle{ (\mathcal{S}, \mathcal{A}, P, R, \gamma) }[/math]로 정의된다.
- [math]\displaystyle{ \mathcal{S} }[/math]는 가능한 모든 상태의 집합이다.
- [math]\displaystyle{ \mathcal{A} }[/math]는 가능한 모든 행동의 집합이다.
- [math]\displaystyle{ P }[/math]는 상태 전이 확률을 나타내는 함수이다. [math]\displaystyle{ P_a(s,s') = \mathbb{P} [S_{t+1}=s'|S_t=s,A_t=a] }[/math].
- [math]\displaystyle{ R }[/math]는 행동에 따른 보상의 기댓값을 나타내는 함수이다. [math]\displaystyle{ R(s, a) = \mathbb{E} [r_{t+1}|S_t=s,A_t=a] }[/math]. 보상은 일반적으로 하나의 실수로 주어진다.
- [math]\displaystyle{ \gamma }[/math]는 할인 인자(discount factor)이다. 현재 얻게 되는 보상이 미래에 얻게 될 보상보다 얼마나 더 중요한지를 나타내는 값으로, 0 이상 1 이하의 실수로 나타난다. 많은 알고리즘이 할인 인자가 없을 경우 수렴하지 않는다. 각 시간마다 주어지는 보상에 [math]\displaystyle{ \gamma^t }[/math]를 곱해서 받은 것으로 취급하여 문제를 풀게 된다. 즉, 똑같이 보상이 1이 주어졌더라도 [math]\displaystyle{ \gamma = 0.5 }[/math]인 경우, [math]\displaystyle{ t=1 }[/math]일 때 받은 보상이 [math]\displaystyle{ t=2 }[/math]일 때 받은 보상의 2배의 가치를 가지는 것으로 본다.