기계 학습

기계 학습(機械學習, 영어: Machine learning)은 인공지능의 한 분야로, 인간의 자연적인 학습 능력을 컴퓨터로 재현하려는 방법론이다.

기계 학습을 통해 사람이 정확히 모든 경우의 수를 고려하여 프로그래밍하지 않더라도 컴퓨터가 스스로 규칙을 찾아 문제를 풀도록 한다. 알파고를 있게 한 기술이 바로 이것이다.

종류[편집 | 원본 편집]

지도 학습[편집 | 원본 편집]

지도 학습(영어: Supervised learning)은 예시 입력-출력 데이터를 기반으로 주어진 입력에 대한 출력값을 예측하는 함수를 유추하는 기계 학습 기법이다.[1] 대표적인 지도 학습 기법에는 회귀(영어: Regression) 기법과 분류(영어: Classification) 기법이 있다.

준지도 학습[편집 | 원본 편집]

준지도 학습(영어: Semi-supervised learning)은 모든 데이터에 대한 레이블을 필요로 하는 지도 학습의 단점을 보완하기 위해 만들어진 기법이다. 준지도 학습의 한 종류인 Active learning 기법은 소량의 레이블이 있는 데이터를 이용하여 우선 학습하고 레이블이 없는 데이터에 그 모델을 적용하여 결과를 prediction한다. 이렇게 나온 결과들 중 신뢰도가 낮은 데이터들을 모아[2] 사람에게 전달하고 사람은 그렇게 전달된 데이터에만 레이블을 붙여서 학습 데이터에 추가하는 과정을 통해 꼭 필요한 데이터에만 레이블링을 해도 학습이 가능하게 된다. 반대로 신뢰도가 높은 데이터를 학습에 이용하는 준지도 학습 방법도 있다.

비지도 학습[편집 | 원본 편집]

비지도 학습(영어: unsupervised learning)은 사람이 일일히 무엇이 정답인지 레이블을 제공하지 않아도 데이터만 가지고 알아서 학습시키는 기법이다. 데이터들 사이의 유사성을 학습해서 비슷한 종류끼리 묶는 클러스터링이 대표적인 비지도 학습 문제이다.

강화 학습[편집 | 원본 편집]

강화 학습(영어: Reinforcement learning)은 어떤 주어진 환경에서 에이전트가 어떤 행동들을 취할지, 즉 의사결정 과정을 학습하는 기계 학습 방법이다. 어떤 상태에서 어떤 행동을 하면 상태가 변화하고 보상을 받게 되는데, 이 보상을 최대화하도록 학습하는 방법이다. 환경은 일반적으로 마르코프 결정 과정을 이용하여 기술된다. 강화라는 말은 보상을 통해 행동을 형성하거나 수정하는 과정을 의미하는 행동심리학의 용어에서 따왔다. 게임이나 로봇 제어와 같이 수많은 상황에 대한 레이블을 할 수 없는 경우에 유용하다. 체스의 예를 들면, 지도학습 방법을 사용하기 위해서는 체스판의 다양한 상태에서 어떤 행동을 할지 전문가가 직접 결정하여 레이블링해야 하며, 모델은 이런 전문가의 결정을 모방하는 방식으로 학습이 된다. 반면 강화학습의 경우 체스를 끝까지 둬서 이기면 1의 보상을, 지면 -1의 보상을 주도록 설정하고 이 보상의 기댓값을 최대화하는 식으로 모델이 학습되는 것이다. 위 유튜브 동영상은 아타리 벽돌깨기를 강화학습을 이용해 학습한 것이며, 알파고 역시 강화학습이 사용되었다.

딥 러닝과의 관계[편집 | 원본 편집]

딥 러닝(영어: Deep learning, 심층학습)은 기계학습의 부분집합으로, 인공신경망을 여러 층 쌓아 네트워크를 구성하여 학습시키는 것을 말한다. 이렇게 여러 층으로 구성되어 있는 것을 "깊다"(deep)고 표현한다. 네트워크를 깊게 만들면 한 층으로는 분류할 수 없었던 비선형적인 특성들을 구분할 수 있다는 장점이 있다.

관련 문서[편집 | 원본 편집]

각주

  1. Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 9780136042594.
  2. 예를 들어, A/B의 2가지 종류로만 분류하는 경우에, A일 확률이 0.51로 예측되었다면 일단 A라고 판정할 수는 있지만 B일 확률과 거의 차이가 없어 결과의 신뢰도가 낮다.