Multi-armed bandit 편집하기


편집하면 당신의 IP 주소가 공개적으로 기록됩니다. 계정을 만들고 로그인하면 편집 시 사용자 이름만 보이며, 위키 이용에 여러 가지 편의가 주어집니다.

편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.

최신판 당신의 편집
11번째 줄: 11번째 줄:
== 전략 ==
== 전략 ==
=== Epsilon-greedy 전략 ===
=== Epsilon-greedy 전략 ===
Epsilon-greedy (<math>\epsilon</math>-greedy) 전략은 지금까지 관찰한 결과 가장 기댓값이 높은 arm을 <math>1 - \epsilon</math>의 확률로, 그렇지 않은 arm을 <math>\epsilon</math>의 확률로 시도해보는 전략이다. 무한히 많은 시행을 거치면 가장 기댓값이 큰 arm을 발견할 수 있지만, 그렇게 발견한 뒤에도 일정 확률로 계속 테스트해보기 때문에 Regret이 시행 횟수에 정비례(<math>O(n)</math>)한다. <math>\epsilon</math>을 고정해놓지 않고 시행 횟수에 반비례(<math>\epsilon \propto 1/t</math>)하게 만들면 Regret이 <math>O(\log n)</math>으로 좋아진다. 그러나 이 전략은 현저하게 나쁜 것으로 밝혀진 arm과, 최적일 가능성이 남아있는 arm을 구분하지 않고 <math>\epsilon</math>을 일정하게 나눠가지기 때문에 비효율적이다.
Epsilon-greedy (<math>\epsilon</math>-greedy) 전략은 지금까지 관찰한 결과 가장 기댓값이 높은 arm을 <math>1 - \epsilon</math>의 확률로, 그렇지 않은 arm을 <math>\epsilon</math>의 확률로 시도해보는 전략이다. 무한히 많은 시행을 거치면 가장 기댓값이 큰 arm을 발견할 수 있지만, 그렇게 발견한 뒤에도 일정 확률로 계속 테스트해보기 때문에 Regret이 시행 횟수에 정비례(<math>O(n)</math>)한다. <math>\epsilon</math>을 고정해놓지 않고 시행 횟수에 반비례(<math>\epsilon \propto 1/t</math>)하게 만들면 Regret이 <math>O(\log n)</math>으로 좋아진다. 그러나 현저하게 나쁜 것으로 밝혀진 arm과, 최적일 가능성이 남아있는 arm을 구분하지 않고 <math>\epsilon</math>을 일정하게 나눠가지기 때문에 개선의 여지가 있다.


=== UCB 알고리즘 ===
=== UCB 알고리즘 ===
리브레 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 3.0 라이선스로 배포됩니다(자세한 내용에 대해서는 리브레 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
글이 직접 작성되었거나 호환되는 라이선스인지 확인해주세요. 리그베다 위키, 나무위키, 오리위키, 구스위키, 디시위키 및 CCL 미적용 사이트 등에서 글을 가져오실 때는 본인이 문서의 유일한 기여자여야 하고, 만약 본인이 문서의 유일한 기여자라는 증거가 없다면 그 문서는 불시에 삭제될 수 있습니다.
취소 편집 도움말 (새 창에서 열림)

| () [] [[]] {{}} {{{}}} · <!-- --> · [[분류:]] · [[파일:]] · [[미디어:]] · #넘겨주기 [[]] · {{ㅊ|}} · <onlyinclude></onlyinclude> · <includeonly></includeonly> · <noinclude></noinclude> · <br /> · <ref></ref> · {{각주}} · {|class="wikitable" · |- · rowspan=""| · colspan=""| · |}