알파고

개요

알파고(Alphago)는 구글 딥마인드에서 개발한 인공지능 바둑 프로그램이다. 최정상 급의 바둑을 두는 인간을 바둑으로 이긴 최초의 인공지능이기도 하다.^[1]

인간과의 대결

2016년 3월 9일, 2016년 3월 10일 가진 이세돌과의 대국(구글 딥마인드 챌린지 매치)에서 총 5국 중 2국 연승을 거두었다. 이 경기는 바둑TV 등 많은 채널에서 볼 수 있다.

대국 스타일은 전반적으로 이창호 9단의 전성기 시절을 보는 듯하다는 평가를 받는다. 정확히는 오직 이긴다는 생각만으로 집요하게 밀고 나간다고 한다. 상대 입장에서는 분명 이기고 있다 생각했는데 언젠가부터 지고 있기 시작한다고.

원리

몬테 카를로 트리 탐색을 사용하는 점에서는 아마추어 수준의 바둑을 두는 다른 인공지능과 동일하지만, 몬테 카를로 트리 탐색의 효율성을 높이기 위해 지도 학습만을 사용하지 않고 KGS 바둑 서버의 기보 3천만 개를 기반으로 한 지도 학습의 결과물과 자기 자신과의 대국을 통한 강화 학습의 결과물을 이용한다는 점이 알파고와 다른 인공지능 사이의 가장 큰 차이점이다. 그 결과물이 바로 정책망(Policy network)과 가치망(Value network)인데, 정책망은 둘 수있는 모든 수의 승률 분포를 계산하고 가치망은 다음에 둘 수 하나를 집어내어 정책망을 보완한다.^[2]이외에 알파고는 단일 컴퓨터 연산이 아닌 클라우드 컴퓨팅을 [==원리== 몬테 카를로 트리 탐색을 사용하는 점에서는 아마추어 수준의 바둑을 두는 다른 인공지능과 동일하지만, 몬테 카를로 트리 탐색의 효율성을 높이기 위해 지도 학습만을 사용하지 않고 KGS 바둑 서버의 기보 3천만 개를 기반으로 한 지도 학습의 결과물과 자기 자신과의 대국을 통한 강화 학습의 결과물을 이용한다는 점이 알파고와 다른 인공지능 사이의 가장 큰 차이점이다. 그 결과물이 바로 정책망(Policy network)과 가치망(Value network)인데, 정책망은 둘 수있는 모든 수의 승률 분포를 계산하고 가치망은 다음에 둘 수 하나를 집어내어 정책망을 보완한다.^[3]이외에 알파고는 단일 컴퓨터 연산이 아닌 클라우드 컴퓨팅을 사용하고 있기 때문에 인터넷 망만 연결되어 있다면 사실상 무한정의 연산이 가능한 능력을 가지고 있다는 점도 기존의 컴퓨터 인공지능의 연산능력과 확연하게 차이나는 부분이라 할 수 있다 ~~실시간 훈수네 이거~~

사용]하고 있기 때문에 인터넷 망만 연결되어 있다면 사실상 무한정의 연산이 가능한 능력을 가지고 있다는 점도 기존의 컴퓨터 인공지능의 연산능력과 확연하게 차이나는 부분이라 할 수 있다 실시간 훈수네 이거 물론 실제 이세돌 9단과의 바둑대결에서는 이 기능을 사용하지는 않았지만 아무튼 연산능력의 한계 때문에 인공지능에 과부하가 걸리는 일은 거의 없을 것이라는 것.

각주

[1] ttp://googleresearch.blogspot.kr/2016/01/alphago-mastering-ancient-game-of-go.html

[2] ttp://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

[3] ttp://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

[1]

[2]

[3]

알파고

목차

개요

인간과의 대결

원리

관련 문서

각주