로그인하고 있지 않습니다. 편집하면 당신의 IP 주소가 공개적으로 기록됩니다. 계정을 만들고 로그인하면 편집 시 사용자 이름만 보이며, 위키 이용에 여러 가지 편의가 주어집니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!'''마르코프 결정 과정'''(Markov Decision Process, '''MDP''')는 의사결정 과정의 모델로, 상태(state)와 행동(action), 그리고 현재 상태와 행동에 따라 어느 상태로 변할지에 대한 확률, 행동에 따른 보상(reward; 보상이 확률적으로 주어지는 경우 그 기댓값)으로 정의된다. [[러시아]]의 [[수학자]] 안드레이 마르코프(Andrey Markov)에게서 이름을 따왔는데, 그가 연구한 [[마르코프 과정]]에 어떤 행동을 할지 선택할 수 있도록 확장한 것으로 볼 수 있다. [[강화학습]] 방법이 다루는 환경은 일반적으로 이 마르코프 결정 과정으로 주어지는데, 특히 전이 확률이나 보상에 대한 지식이 없거나 문제가 너무 큰 경우를 대상으로 한다. == 정의 == 마르코프 결정 과정은 튜플 <math>(\mathcal{S}, \mathcal{A}, P, R, \gamma)</math>로 정의된다. * <math>\mathcal{S}</math>는 가능한 모든 상태의 집합이다. * <math>\mathcal{A}</math>는 가능한 모든 행동의 집합이다. * <math>P</math>는 상태 전이 확률을 나타내는 함수이다. <math>P_a(s,s') = \mathbb{P} [S_{t+1}=s'|S_t=s,A_t=a]</math>. * <math>R</math>는 행동에 따른 보상의 기댓값을 나타내는 함수이다. <math>R(s, a) = \mathbb{E} [r_{t+1}|S_t=s,A_t=a]</math>. 보상은 일반적으로 하나의 [[실수]]로 주어진다. * <math>\gamma</math>는 할인 인자(discount factor)이다. 현재 얻게 되는 보상이 미래에 얻게 될 보상보다 얼마나 더 중요한지를 나타내는 값으로, 0 이상 1 이하의 실수로 나타난다. 많은 알고리즘이 할인 인자가 없을 경우 수렴하지 않는다. 각 시간마다 주어지는 보상에 <math>\gamma^t</math>를 곱해서 받은 것으로 취급하여 문제를 풀게 된다. 즉, 같은 보상이 주어졌더라도 <math>\gamma = 0.5</math>인 경우, <math>t=1</math>일 때 받은 보상이 <math>t=2</math>일 때 받은 보상의 2배의 가치를 가지는 것으로 본다. == 정책 == 마르코프 결정 과정에서 가장 중요한 문제는 주어진 MDP에 대한 최선의 정책(Policy)을 찾아내는 것이다. 정책 <math>\pi(s)</math>는 상태를 주면 그 상태에서 취할 행동을 결정하는 함수이다. 하나의 행동을 결정하는 대신, 상태가 주어졌을 때 어떤 행동을 취할 확률 <math>\pi(a|s) = \mathbb{P} [A_t = a|S_t = s]</math>를 쓰기도 하는데, 이 경우 확률적 정책(stochastic policy)이라고 한다. [[분류:기계 학습]] 요약: 리브레 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 3.0 라이선스로 배포됩니다(자세한 내용에 대해서는 리브레 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 글이 직접 작성되었거나 호환되는 라이선스인지 확인해주세요. 리그베다 위키, 나무위키, 오리위키, 구스위키, 디시위키 및 CCL 미적용 사이트 등에서 글을 가져오실 때는 본인이 문서의 유일한 기여자여야 하고, 만약 본인이 문서의 유일한 기여자라는 증거가 없다면 그 문서는 불시에 삭제될 수 있습니다. 취소 편집 도움말 (새 창에서 열림) | () [] [[]] {{}} {{{}}} · <!-- --> · [[분류:]] · [[파일:]] · [[미디어:]] · #넘겨주기 [[]] · {{ㅊ|}} · <onlyinclude></onlyinclude> · <includeonly></includeonly> · <noinclude></noinclude> · <br /> · <ref></ref> · {{각주}} · {|class="wikitable" · |- · rowspan=""| · colspan=""| · |} {{lang|}} · {{llang||}} · {{인용문|}} · {{인용문2|}} · {{유튜브|}} · {{다음팟|}} · {{니코|}} · {{토막글}} {{삭제|}} · {{특정판삭제|}}(이유를 적지 않을 경우 기각될 가능성이 높습니다. 반드시 이유를 적어주세요.) {{#expr:}} · {{#if:}} · {{#ifeq:}} · {{#iferror:}} · {{#ifexist:}} · {{#switch:}} · {{#time:}} · {{#timel:}} · {{#titleparts:}} __NOTOC__ · __FORCETOC__ · __TOC__ · {{PAGENAME}} · {{SITENAME}} · {{localurl:}} · {{fullurl:}} · {{ns:}} –(대시) ‘’(작은따옴표) “”(큰따옴표) ·(가운뎃점) …(말줄임표) ‽(물음느낌표) 〈〉(홑화살괄호) 《》(겹화살괄호) ± − × ÷ ≈ ≠ ∓ ≤ ≥ ∞ ¬ ¹ ² ³ ⁿ ¼ ½ ¾ § € £ ₩ ¥ ¢ † ‡ • ← → ↔ ‰ °C µ(마이크로) Å °(도) ′(분) ″(초) Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η Θ θ Ι ι Κ κ Λ λ Μ μ(뮤) Ν ν Ξ ξ Ο ο Π π Ρ ρ Σ σ ς Τ τ Υ υ Φ φ Χ χ Ψ ψ Ω ω · Ά ά Έ έ Ή ή Ί ί Ό ό Ύ ύ Ώ ώ · Ϊ ϊ Ϋ ϋ · ΐ ΰ Æ æ Đ(D with stroke) đ Ð(eth) ð ı Ł ł Ø ø Œ œ ß Þ þ · Á á Ć ć É é Í í Ĺ ĺ Ḿ ḿ Ń ń Ó ó Ŕ ŕ Ś ś Ú ú Ý ý Ź ź · À à È è Ì ì Ǹ ǹ Ò ò Ù ù · İ Ż ż ·  â Ĉ ĉ Ê ê Ĝ ĝ Ĥ ĥ Î î Ĵ ĵ Ô ô Ŝ ŝ Û û · Ä ä Ë ë Ï ï Ö ö Ü ü Ÿ ÿ · ǘ ǜ ǚ ǖ · caron/háček: Ǎ ǎ Č č Ď ď Ě ě Ǐ ǐ Ľ ľ Ň ň Ǒ ǒ Ř ř Š š Ť ť Ǔ ǔ Ž ž · breve: Ă ă Ğ ğ Ŏ ŏ Ŭ ŭ · Ā ā Ē ē Ī ī Ō ō Ū ū · à ã Ñ ñ Õ õ · Å å Ů ů · Ą ą Ę ę · Ç ç Ş ş Ţ ţ · Ő ő Ű ű · Ș ș Ț ț