본문 바로가기

카테고리 없음

머신러닝-Supervised learning vs. Unsupervised learning

Supervised learning이란 input x에 대한 output y의 정보를 어느 정도 주고 학습시키는 것이다. 예를 들어, 집의 평수와 집의 가격에 대한 관계의 그래프를 그린다고 했을 때, 몇 가지의 집 평수와 그에 대한 집 값의 데이터를 어느 정도 주면 이를 통해 다른 평형 대의 집의 가격에 대한 예측을 알 수 있다. 이것을 regression이라고 한다. supervised learning에는 regression외에도 classification이란 것이 있다.

 

Classification은 예를 들어 설명하겠다. 어떤 환자에게 종양이 발견됐을 때, 이 종양이 악성인지 양성인지 알아내야 한다. classification은 이 종양의 size와 환자의 나이 등과 같은 정보로 이 종양이 악성인지 양성인지 분류하는 것을 말한다. regression은 input에 대한 output을 특정 숫자로 표현한다면, classification은 output이 숫자가 아닌 분류로 표현한다. 종양이 악성인지 양성인지 또는 어떤 동물이 고양이인지 개인지와 같은 것으로 말이다.

 

Unsupervised learning은 정답을 알려주지 않는다. Supervised learning의 classification은 개와 고양이 사진을 넣고 개인지 고양이인지 정답을 알려주고 학습시키는 반면에 unsupervised learning은 그저 input variable만 입력한다. 이 때, input variable들 사이에서 group을 만들 수 있는데 이것을 clustering이라고 한다. 예를 들어, 수 많은 뉴스 기사들 중에 특정 사람이 관심있어 할 만한 기사들은 제한되어 있다. 야구를 좋아하는 사람은 야구 뉴스를 즐겨볼 것이다. 이런 데이터를 활용하여 unsupervised learning은 이 사람에게 야구 뉴스 위주로 선별된 뉴스를 보여줄 것이다.