4. gaussian model

4. Gaussian Model

4.1 Introduction4.2 Gaussian discriminant analysis

4.2.1 Quadratic discriminant analysis (QDA)4.2.2 Linear discriminant analysis (LDA)4.2.3 Two-class LDA4.2.4 MLE for discriminant analysis

4.1 Introduction

다변량 정규 분포에 대한 장

4.2 Gaussian discriminant analysis

Class가 주어졌을 때, feature vector는 Gaussian 분포라는 가정이 주어진다

(Gaussian) discriminant analysis: posterior

(2.13) //p(x|y)는 정규분포 예를 들어 2-class 문제의 경우

판별하는데 필요한 μc,Σc 는 MLE 추정으로 구한다(섹션 4.2.4), 즉 각 클래스마다 샘플 평균, 샘플 공분산

예를 들어 2-class의 경우, 데이터의 likelihood는

파라메터 추정치는

Decision Rule: class 분류에 상관없는 분모는 지우고 log를 취해서 가장 큰 posterior를 갖는 class로 분류

모든 class가 균일한 prior 분포를 가졌다면, 위의 수식에서 첫번째 prior항은 없어지고 두번째 항에 정규 분포 수식을 대입

4.2.1 Quadratic discriminant analysis (QDA)

식 (2.13)에 likelihood와 prior에 각각 multinomial 분포식과 정규 분포식을 대입하면

(4.33)

위의 식을 class를 결정하는 x에 대한 함수로 본다면(p(y=1|x) - p(y=0|x) > 0 이면 y=1과 같은) 이차식(quadratic)의 형태이고 분류평면(p(y=1|x) = p(y=0|x)인 지점)도 다음과 같이 곡선이 나오게 된다

4.2.2 Linear discriminant analysis (LDA)

모든 class에 대해서 공분산을 공유한다면(또는 같다면)즉

이라면(4.33)은 다음과 같이 된다.

이차 항 xTΣ-1x은 모든 class에 대해서 동일하므로 분류에 영향을 끼치지 않기 때문에 사라지고, decision boundary는 linear해 진다.

라고 두면 식(4.35)는 다음과 같이 쓸 수 있고

(4.38)이러한 모양의 함수는 soft한 max함수처럼 작용하기 때문에 S는 softmax 함수라고 불린다. 예를 들어 η = (3,0,1)이라면 다음과 같이 최대값인 3에 대해서 0.8정도의 확률이 할당된다

4.2.3 Two-class LDA

2-class 문제를 가정하고 식 (4.38)에 log를 취해서 다음과 같이 linear한 평면을 유도할 수 있다.

βc'- βc항이 분류 평면의 법선 벡터가 되고 γc'- γc항이 분류 평면의 bias가 된다.

4.2.4 MLE for discriminant analysis

수식 (4.35)의 mu와 sigma는 다음과 같이 MLE로 추정할 수 있고 결과는 다음과 같다

즉, 각 class에 대해서 feature vector들의 평균과 분산이다.

즉, 각 class에 대해서 feature vector들의 평균과 분산이다.

4. gaussian model

Engineering