K-Nearest Neighbor

1. Classification

  • 분류나 예측을 진행할때 나랑 가장 가까운 이웃 k개를 고려하겠다.
  • 나랑 가까운 이웃 한명이 검정색이면 검정색으로 판단

  • 파란색의 가장 가까운 이웃을 확인해본 결과 검정색 이므로 파란색도 검정색으로 분류되었다

  • K=3 일 경우 형광색 친구를 분류한다고 하였을때 이웃중 파란색이 2개 검정색이 한개이기 때문에 파란색으로 분류된다.

  • 분류를 원하는 관측치의 주변 N개의 데이터(근접 이웃)을 골라서, 주변대세를 확인 (다수결의 원칙으로)

2. Prediction

  • 인접 K개의 데이터의 수치를 확인해줘서 그 데이터의 평균을 검은점의 예측치로 설정해준다.

3. How to find optimal k?

k의 결정

  • k가 너무 큰 경우, KNN모델이 지나치게 일반화됨
  • K가 너무 작은 경우,KNN 모델의 예측 결과의 분산이 큼
  • 주로 이것저것 해보고 error이 가장 작은 k를 설정하여준다.

거리 척도의 결정

  • 상황에 맞는 거리척도를 사용하여야 한다.
  • 거리척도의 종류:Minkowski distance , Euclidean distance, Citi block distance, Mahalanobis distance, Correlation distance 등

  • Reference: 한국공학대학교 강지훈교수님 강의
Share