마르코프 결정 과정 편집하기


편집하면 당신의 IP 주소가 공개적으로 기록됩니다. 계정을 만들고 로그인하면 편집 시 사용자 이름만 보이며, 위키 이용에 여러 가지 편의가 주어집니다.

편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.

최신판 당신의 편집
1번째 줄: 1번째 줄:
'''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. [[러시아]]의 [[수학자]] 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 [[마르코프 과정]]에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다. [[강화학습]] 방법이 다루는 환경은 일반적으로 이 마르코프 결정 과정으로 주어지는데, 특히 전이 확률이나 보상에 대한 지식이 없거나 문제가 너무 큰 경우를 대상으로 한다.
'''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. [[러시아]]의 [[수학자]] 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 [[마르코프 과정]]에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다. [[강화학습]] 방법은 이 마르코프 결정 과정에서 최선의 정책을 찾아내는 것을 목표로 한다.


== 정의 ==
== 정의 ==
리브레 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 3.0 라이선스로 배포됩니다(자세한 내용에 대해서는 리브레 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
글이 직접 작성되었거나 호환되는 라이선스인지 확인해주세요. 리그베다 위키, 나무위키, 오리위키, 구스위키, 디시위키 및 CCL 미적용 사이트 등에서 글을 가져오실 때는 본인이 문서의 유일한 기여자여야 하고, 만약 본인이 문서의 유일한 기여자라는 증거가 없다면 그 문서는 불시에 삭제될 수 있습니다.
취소 편집 도움말 (새 창에서 열림)

| () [] [[]] {{}} {{{}}} · <!-- --> · [[분류:]] · [[파일:]] · [[미디어:]] · #넘겨주기 [[]] · {{ㅊ|}} · <onlyinclude></onlyinclude> · <includeonly></includeonly> · <noinclude></noinclude> · <br /> · <ref></ref> · {{각주}} · {|class="wikitable" · |- · rowspan=""| · colspan=""| · |}