로그인하고 있지 않습니다. 편집하면 당신의 IP 주소가 공개적으로 기록됩니다. 계정을 만들고 로그인하면 편집 시 사용자 이름만 보이며, 위키 이용에 여러 가지 편의가 주어집니다.중간의 다른 편집과 충돌하여 이 편집을 되돌릴 수 없습니다. 스팸 방지 검사입니다. 이것을 입력하지 마세요!'''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. [[러시아]]의 [[수학자]] 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 [[마르코프 과정]]에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다. [[강화학습]] 방법이 다루는 환경은 일반적으로 이 마르코프 결정 과정으로 주어지는데, 특히 전이 확률이나 보상에 대한 지식이 없거나 문제가 너무 큰 경우를 대상으로 한다. == 정의 == 마르코프 결정 과정은 튜플 <math>(\mathcal{S}, \mathcal{A}, P, R, \gamma)</math>로 정의된다. * <math>\mathcal{S}</math>는 가능한 모든 상태의 집합이다. * <math>\mathcal{A}</math>는 가능한 모든 행동의 집합이다. * <math>P</math>는 상태 전이 확률을 나타내는 함수이다. <math>P_a(s,s') = \mathbb{P} [S_{t+1}=s'|S_t=s,A_t=a]</math>. * <math>R</math>는 행동에 따른 보상의 기댓값을 나타내는 함수이다. <math>R(s, a) = \mathbb{E} [r_{t+1}|S_t=s,A_t=a]</math>. 보상은 일반적으로 하나의 [[실수]]로 주어진다. * <math>\gamma</math>는 할인 인자(discount factor)이다. 현재 얻게 되는 보상이 미래에 얻게 될 보상보다 얼마나 더 중요한지를 나타내는 값으로, 0 이상 1 이하의 실수로 나타난다. 많은 알고리즘이 할인 인자가 없을 경우 수렴하지 않는다. 각 시간마다 주어지는 보상에 <math>\gamma^t</math>를 곱해서 받은 것으로 취급하여 문제를 풀게 된다. 즉, 같은 보상이 주어졌더라도 <math>\gamma = 0.5</math>인 경우, <math>t=1</math>일 때 받은 보상이 <math>t=2</math>일 때 받은 보상의 2배의 가치를 가지는 것으로 본다. == 정책 == 마르코프 결정 과정에서 가장 중요한 문제는 주어진 MDP에 대한 최선의 정책(Policy)을 찾아내는 것이다. 정책 <math>\pi(s)</math>는 상태를 주면 그 상태에서 취할 행동을 결정하는 함수이다. 하나의 행동을 결정하는 대신, 상태가 주어졌을 때 어떤 행동을 취할 확률 <math>\pi(a|s) = \mathbb{P} [A_t = a|S_t = s]</math>를 쓰기도 하는데, 이 경우 확률적 정책(stochastic policy)이라고 한다. [[분류:기계 학습]] 요약: 리브레 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 3.0 라이선스로 배포됩니다(자세한 내용에 대해서는 리브레 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 글이 직접 작성되었거나 호환되는 라이선스인지 확인해주세요. 리그베다 위키, 나무위키, 오리위키, 구스위키, 디시위키 및 CCL 미적용 사이트 등에서 글을 가져오실 때는 본인이 문서의 유일한 기여자여야 하고, 만약 본인이 문서의 유일한 기여자라는 증거가 없다면 그 문서는 불시에 삭제될 수 있습니다. 취소 편집 도움말 (새 창에서 열림) | () [] [[]] {{}} {{{}}} · <!-- --> · [[분류:]] · [[파일:]] · [[미디어:]] · #넘겨주기 [[]] · {{ㅊ|}} · <onlyinclude></onlyinclude> · <includeonly></includeonly> · <noinclude></noinclude> · <br /> · <ref></ref> · {{각주}} · {|class="wikitable" · |- · rowspan=""| · colspan=""| · |} {{lang|}} · {{llang||}} · {{인용문|}} · {{인용문2|}} · {{유튜브|}} · {{다음팟|}} · {{니코|}} · {{토막글}} {{삭제|}} · {{특정판삭제|}}(이유를 적지 않을 경우 기각될 가능성이 높습니다. 반드시 이유를 적어주세요.) {{#expr:}} · {{#if:}} · {{#ifeq:}} · {{#iferror:}} · {{#ifexist:}} · {{#switch:}} · {{#time:}} · {{#timel:}} · {{#titleparts:}} __NOTOC__ · __FORCETOC__ · __TOC__ · {{PAGENAME}} · {{SITENAME}} · {{localurl:}} · {{fullurl:}} · {{ns:}} –(대시) ‘’(작은따옴표) “”(큰따옴표) ·(가운뎃점) …(말줄임표) ‽(물음느낌표) 〈〉(홑화살괄호) 《》(겹화살괄호) ± − × ÷ ≈ ≠ ∓ ≤ ≥ ∞ ¬ ¹ ² ³ ⁿ ¼ ½ ¾ § € £ ₩ ¥ ¢ † ‡ • ← → ↔ ‰ °C µ(마이크로) Å °(도) ′(분) ″(초) Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η Θ θ Ι ι Κ κ Λ λ Μ μ(뮤) Ν ν Ξ ξ Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ Φ φ Χ χ Ψ ψ Ω ω · Ά ά Έ έ Ή ή Ί ί Ό ό Ύ ύ Ώ ώ · Ϊ ϊ Ϋ ϋ · ΐ ΰ Æ æ Đ(D with stroke) đ Ð(eth) ð ı Ł ł Ø ø Œ œ ß Þ þ · Á á Ć ć É é Í í Ĺ ĺ Ḿ ḿ Ń ń Ó ó Ŕ ŕ Ś ś Ú ú Ý ý Ź ź · À à È è Ì ì Ǹ ǹ Ò ò Ù ù · İ Ż ż ·  â Ĉ ĉ Ê ê Ĝ ĝ Ĥ ĥ Î î Ĵ ĵ Ô ô Ŝ ŝ Û û · Ä ä Ë ë Ï ï Ö ö Ü ü Ÿ ÿ · ǘ ǜ ǚ ǖ · caron/háček: Ǎ ǎ Č č Ď ď Ě ě Ǐ ǐ Ľ ľ Ň ň Ǒ ǒ Ř ř Š š Ť ť Ǔ ǔ Ž ž · breve: Ă ă Ğ ğ Ŏ ŏ Ŭ ŭ · Ā ā Ē ē Ī ī Ō ō Ū ū · à ã Ñ ñ Õ õ · Å å Ů ů · Ą ą Ę ę · Ç ç Ş ş Ţ ţ · Ő ő Ű ű · Ș ș Ț ț