Data-Driven Approach(데이터 기반 기법)
Nearest Neighbor은 컨볼루션 신경망 방법과는 아무 상관이 없고 실제 문제를 풀 때 자주 사용되지는 않음
이미지 분류 문제에 대한 기본적인 접근 방법을 알 수 있음
예측 단계에서는 투입된 이미지와 가장 가까운 데이터의 레이블을 통해 예측하는 방법
이미지와 이미지 간의 가까운 정도(Distance)는 다양한 지표(Metric)가 있음
L1 Distance: $d_1(I_1, I_2) = \sum p|Ip_1-Ip_2|$
L2 Distance: $d_2(I_1, I_2) = \sqrt{\sum p(Ip_1 - Ip_2)^2}$
L2 Distance는 L1 Distance를 사용하는 것보다 차이가 큰 것에 더 관대하지 않음
L1이 아닌 L2를 쓴다는 것 → 여러 개의 차원에서 적당한 차이를 보이는 것보다 하나의 차원에서 큰 차이를 보이는 것에 더 패널티를 준다는 의미
Nearest Neighbor 방식은 단 하나의 Label만 예측해서 고려하기에 안정성이 떨어지는 결과를 보여줌
예측 단계에서 Input과 가까운 순으로 총 $K$개의 데이터 Label을 구한 후, 가장 빈번하게 나오는 Label로 예측하는 방법
여러 개로부터 가장 빈번하게 나오는 것을 예측 결과로 하는 것 → Voting(Machine Learning)
학습 데이터셋에서 가장 가까운 $K$개의 이미지를 찾아서 테스트 이미지의 Label에 대해 투표하도록 하는 것
$K$ 값이 작아질 경우 → 원래의 Nearest Neighbor에 근접해짐
$K$ 값이 커질 경우 → 분류기는 이상치(Outlier)에 더 강인하고, 분류 경계가 부드러워짐
Naive-Bayes(나이브-베이즈) 분류는 베이즈 정리를 이용하여 입력 데이터가 특정 카테고리에 속하는지 분류함
주어진 Class에 대해 각각의 특징에 대한 모든 조건들이 독립적이라 가정함
사후 확률(A Posterior Probability). 즉, 가장 가능성이 높은 결정을 내리려고 함
Rule-Driven Approach(규칙 기반 방법)
Explain
주어진 입력에 대해 결과값을 도출하는 방식(if-then 방식)
예제에 대해 가설을 세우고 결과를 도출함 → 귀납적 사고 방식
규칙 기반 학습이 타당하기 위한 조건
즉, 4개의 가정을 모두 만족하는 완벽한 세계(Perfect World)라 말하며, 규칙 기반 학습은 완벽한 세계에서 타당함
Find-S Algorithm
가장 구체적인 가설에서 시작하여 점점 일반적인 가설을 찾아내는 방법
예제 중에서 목표 Class(Positive Training Example)만 선별한다는 것
특정 예제로부터 도출된 결과를 다른 예제들에 반복하고 적용함
현실 세계에서 사용하기에는 한계가 있음 → 실제 세상은 Perfect World처럼 단순하지 않음
최종적으로 하나의 일반화된 가설을 도출하기에, 가설의 집합이 존재하는 경우를 고려하지 않음
Candidate Algorithm