편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 | 당신의 편집 | ||
11번째 줄: | 11번째 줄: | ||
== 전략 == | == 전략 == | ||
=== Epsilon-greedy 전략 === | === Epsilon-greedy 전략 === | ||
Epsilon-greedy (<math>\epsilon</math>-greedy) 전략은 지금까지 관찰한 결과 가장 기댓값이 높은 arm을 <math>1 - \epsilon</math>의 확률로, 그렇지 않은 arm을 <math>\epsilon</math>의 확률로 시도해보는 전략이다. 무한히 많은 시행을 거치면 가장 기댓값이 큰 arm을 발견할 수 있지만, 그렇게 발견한 뒤에도 일정 확률로 계속 테스트해보기 때문에 Regret이 시행 횟수에 정비례(<math>O(n)</math>)한다. <math>\epsilon</math>을 고정해놓지 않고 시행 횟수에 반비례(<math>\epsilon \propto 1/t</math>)하게 만들면 Regret이 <math>O(\log n)</math>으로 좋아진다. 그러나 | Epsilon-greedy (<math>\epsilon</math>-greedy) 전략은 지금까지 관찰한 결과 가장 기댓값이 높은 arm을 <math>1 - \epsilon</math>의 확률로, 그렇지 않은 arm을 <math>\epsilon</math>의 확률로 시도해보는 전략이다. 무한히 많은 시행을 거치면 가장 기댓값이 큰 arm을 발견할 수 있지만, 그렇게 발견한 뒤에도 일정 확률로 계속 테스트해보기 때문에 Regret이 시행 횟수에 정비례(<math>O(n)</math>)한다. <math>\epsilon</math>을 고정해놓지 않고 시행 횟수에 반비례(<math>\epsilon \propto 1/t</math>)하게 만들면 Regret이 <math>O(\log n)</math>으로 좋아진다. 그러나 현저하게 나쁜 것으로 밝혀진 arm과, 최적일 가능성이 남아있는 arm을 구분하지 않고 <math>\epsilon</math>을 일정하게 나눠가지기 때문에 개선의 여지가 있다. | ||
=== UCB 알고리즘 === | === UCB 알고리즘 === |