Economics & Deeplearning

앙상블 기법 2 본문

머신러닝

앙상블 기법 2

이슈카 2016. 1. 26. 14:37

첫 번째서로 다른 복수개의 분류기를 학습하는 방법에 대해 생각해보면 다음과 같은 것들이 있다.

 

학습 알고리즘의 차별화 베이즈 분류기와 k-NN 분류기를 결합하거나신경망과 SVM을 결합하는 등 접근 방법 자체가 다른 것을 선택한다.

모델 선택과 관련된 파라미터의 차별화 : k-NN 분류 알고리즘을 적용하되 값을 달리하면서 j로 다른 분류기를 복수 개 만들어 사용하거나다층 퍼셉트론의 경우 은닉층의 뉴런 수를 달리하면서 여러 가지 모델을 만들어 사용한다.

학습데이터의 차별화 같은 모델을 사용하되학습에 사용되는 데이터 집합을 달리하여 복수 개의 분류기를 만든다예를 들어같은 신경망 모델을 사용하되전체 학습데이터를 적절히 조합하여 서로 다른 학습데이터 집합들을 만들어 이들을 학습에 이용한다.

 

결합하는 방법에도 다음 두 가지로 크게 나눌 수 있다.

병렬적 결합 방법 각각의 분류기로부터 얻어진 결과를 한 번에 모두 함께 고려하여 하나의 최종 결과를 얻는다.

순차적 결합 방법 각 분류기의 결과를 단계별로 나누어앞 단계에 배치된 분류기의 결과가 뒤에 배치된 분류기의 학습과 분류에 영향을 미친다.

 

간단한 방법은 학습데이터를 달리하여 학습기에 변화를 주는 간단한 방법인데이를 통해 하나의 학습기를 사용함으로써 얻을 수 없는 성능 향상의 효과를 충분히 얻어낼 수 있다.

 

필터링에 의한 방법 하나의 분류기를 학습할 때마다 새로운 데이터를 생성하되바로 학습에 적용하기에 앞서 이전에 학습이 완료된 분류기들을 이용하여 필터링함으로써미리 학습된 분류기에 의해 제대로 분류되지 못하는 데이터들이 학습되도록 한다초기에 개발된 부스팅 방법에서 이러한 전략을 사용하였으며학습의 특성을 결합 방법에도 적용하면 캐스케이딩에 의한 학습기 결합이 이에 적합하다.

 

리샘플링에 의한 방법 학습데이터를 매번 새로 생성하는 대신주어진 전체 학습데이터로부터 일부 집합을 추출하여 각 분류기에 학습한다가장 단순한 샘플링 기법을 사용하는 방법으로 배깅 방법이 있으며이후 분류가 어려운 샘플들이 보다 자주 선택될 수 있도록 하는 샘플링 기법을 적용한 방법으로 MadaBoost 방법이 개발되었다.

 

가중치조정에 의한 방법 모든 분류기에 대해 같은 학습데이터를 사용하되각 데이터에 가중치를 주어 학습에 대한 영향도를 달리한다가장 대표적인 앙상블 학습 방법인 AdaBoost 방법이 이에 해당한다.

Comments