마르코프 결정 과정: 두 판 사이의 차이

2020년 6월 10일 (수) 03:50 판

마르코프 결정 과정(Markov Decision Process, MDP)는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. 대부분의 강화학습 방법은 이 마르코프 결정 과정에서 최선의 정책을 찾아내는 것을 목표로 한다. 러시아의 수학자 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 마르코프 연쇄에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다.

정의

마르코프 결정 과정은 튜플 [math]\displaystyle{ (\mathcal{S}, \mathcal{A}, P, R, \gamma) }[/math]로 정의된다.

[math]\displaystyle{ \mathcal{S} }[/math]는 가능한 모든 상태의 집합이다.
[math]\displaystyle{ \mathcal{A} }[/math]는 가능한 모든 행동의 집합이다.
[math]\displaystyle{ P }[/math]는 상태 전이 확률을 나타내는 함수이다. [math]\displaystyle{ P_a(s,s') = \mathbb{P} [S_{t+1}=s'|S_t=s,A_t=a] }[/math].
[math]\displaystyle{ R }[/math]는 행동에 따른 보상의 기댓값을 나타내는 함수이다. [math]\displaystyle{ R(s, a) = \mathbb{E} [r_{t+1}|S_t=s,A_t=a] }[/math]. 보상은 일반적으로 하나의 실수로 주어진다.
[math]\displaystyle{ \gamma }[/math]는 할인 인자(discount factor)이다. 현재 얻게 되는 보상이 미래에 얻게 될 보상보다 얼마나 더 중요한지를 나타내는 값으로, 0 이상 1 이하의 실수로 나타난다. 많은 알고리즘이 할인 인자가 없을 경우 수렴하지 않는다. 각 시간마다 주어지는 보상에 [math]\displaystyle{ \gamma^t }[/math]를 곱해서 받은 것으로 취급하여 문제를 풀게 된다. 즉, 똑같이 보상이 1이 주어졌더라도 [math]\displaystyle{ \gamma = 0.5 }[/math]인 경우, [math]\displaystyle{ t=1 }[/math]일 때 받은 보상이 [math]\displaystyle{ t=2 }[/math]일 때 받은 보상의 2배의 가치를 가지는 것으로 본다.

2020년 6월 10일 (수) 03:37 판 (편집) Nessun (토론 \| 기여) 편집 요약 없음 ← 이전 편집		2020년 6월 10일 (수) 03:50 판 (편집) (편집 취소) Nessun (토론 \| 기여) 편집 요약 없음 다음 편집 →
1번째 줄:		1번째 줄:
	'''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, ~~상태와~~ 행동, 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. 대부분의 [[강화학습]] 방법은 이 마르코프 결정 과정에서 최선의 정책을 찾아내는 것을 목표로 한다.		'''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. 대부분의 [[강화학습]] 방법은 이 마르코프 결정 과정에서 최선의 정책을 찾아내는 것을 목표로 한다. [[러시아]]의 [[수학자]] 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 [[마르코프 연쇄]]에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다.

	== 정의 ==		== 정의 ==