알파고: 두 판 사이의 차이

편집 요약 없음
(→‎개요: 일단 제 능력껏 해석, 요약해서 써봅니다. 오류가 있다면 수정해 주십시오.)
1번째 줄: 1번째 줄:
[[분류:인공지능]]
[[분류:인공지능]]
[[파일:AlphaGo.png|400px]]
[[파일:AlphaGo.png|400px]]
== 개요 ==
'''알파고'''(Alphago)는 [[구글]] [[딥마인드]]에서 개발한 [[인공지능]] [[바둑]] [[프로그램]]이다. 최정상 급의 바둑을 두는 인간을 바둑으로 이긴 최초의 인공지능이기도 하다.<ref>http://googleresearch.blogspot.kr/2016/01/alphago-mastering-ancient-game-of-go.html</ref>
[[구글]] [[딥마인드]]에서 개발한 [[인공지능]] [[바둑]] [[프로그램]]이다. 인간을 최초로 바둑으로 이긴 인공지능이기도 하다.<ref>http://googleresearch.blogspot.kr/2016/01/alphago-mastering-ancient-game-of-go.html</ref>


[[2016년]] [[3월 9일]],  [[2016년]] [[3월 10일]] 가진 [[이세돌]]과의 대국(구글 딥마인드 챌린지 매치)에서 총 5국 중 2국 연승을 거두었다. 이 경기는 바둑TV 등 많은 채널에서 볼 수 있다.  
[[2016년]] [[3월 9일]],  [[2016년]] [[3월 10일]] 가진 [[이세돌]]과의 대국(구글 딥마인드 챌린지 매치)에서 총 5국 중 2국 연승을 거두었다. 이 경기는 바둑TV 등 많은 채널에서 볼 수 있다.  


대국 스타일은 전반적으로 [[이창호]] 9단의 전성기 시절을 보는 듯하다는 평가를 받는다.
대국 스타일은 전반적으로 [[이창호]] 9단의 전성기 시절을 보는 듯하다는 평가를 받는다.
==원리==
[[몬테 카를로 트리 탐색]]을 사용하는 점에서는 아마추어 수준의 바둑을 두는 다른 인공지능과 동일하지만, 몬테 카를로 트리 탐색의 효율성을 높이기 위해 지도 학습만을 사용하지 않고 KGS 바둑 서버의 기보 3천만 개를 기반으로 한 지도 학습의 결과물과 자기 자신과의 대국을 통한 강화 학습의 결과물을 이용한다는 점이 알파고와 다른 인공지능 사이의 가장 큰 차이점이다. 그 결과물이 바로 정책망(Policy network)과 가치망(Value network)인데, 정책망은 둘 수있는 모든 수의 승률 분포를 계산하고 가치망은 다음에 둘 수 하나를 집어내어 정책망을 보완한다.<ref>http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html</ref>


{{주석}}
{{주석}}

2016년 3월 11일 (금) 16:26 판

AlphaGo.png 알파고(Alphago)는 구글 딥마인드에서 개발한 인공지능 바둑 프로그램이다. 최정상 급의 바둑을 두는 인간을 바둑으로 이긴 최초의 인공지능이기도 하다.[1]

2016년 3월 9일, 2016년 3월 10일 가진 이세돌과의 대국(구글 딥마인드 챌린지 매치)에서 총 5국 중 2국 연승을 거두었다. 이 경기는 바둑TV 등 많은 채널에서 볼 수 있다.

대국 스타일은 전반적으로 이창호 9단의 전성기 시절을 보는 듯하다는 평가를 받는다.

원리

몬테 카를로 트리 탐색을 사용하는 점에서는 아마추어 수준의 바둑을 두는 다른 인공지능과 동일하지만, 몬테 카를로 트리 탐색의 효율성을 높이기 위해 지도 학습만을 사용하지 않고 KGS 바둑 서버의 기보 3천만 개를 기반으로 한 지도 학습의 결과물과 자기 자신과의 대국을 통한 강화 학습의 결과물을 이용한다는 점이 알파고와 다른 인공지능 사이의 가장 큰 차이점이다. 그 결과물이 바로 정책망(Policy network)과 가치망(Value network)인데, 정책망은 둘 수있는 모든 수의 승률 분포를 계산하고 가치망은 다음에 둘 수 하나를 집어내어 정책망을 보완한다.[2]

각주