일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- neural networks
- SAS
- SQL
- deep learning
- Andrej Karpathy
- 꿈
- 세상
- machine learning
- 한국어
- 매크로
- cs231n
- tensorflow
- DeepLearning
- Hvass-Lab
- 인공지능
- Artificil Intelligence
- Tutorial
- 행복
- 사랑
- Reinforcement Learning
- 딥러닝
- 머신러닝
- 강화학습
- openai
- tutorials
- 질문
- 신경망
- 답변
- TensorFlow Tutorials
- 번역
- Today
- Total
Economics & Deeplearning
앙상블 기법 3 - 배깅과 보팅 본문
배깅과 보팅
배깅은 학습기의 선택과 관련된 방법
보팅은 학습기의 결합과 관련된 방법
주어진 제한된 크기의 데이터 집합을 이용하여 여러 개의 분류기를 학습시키는 가장 간단한 방법은 리샘플링 기법을 사용하는 것이다.
붓스트랩
배깅은 붓스트랩 방법을 학습기 결합에 적용한 것으로, bootstrap aggregating 의 약자로 이름이 지어졌다.
배깅법에 의해 분류기가 학습되면, 이를 이용하여 최종 결과를 얻기 위한 결합함수를 정의해 주어야 한다. 가장 간단한 방법으로는 M개의 분류기 결과를 모두 동일한 정도로 반영하여 평균한 결과를 얻는 방법을 생각해 볼 수 있다. 이는 각 분류기가 일종의 위원회 역할을 하여, 최종 결과에 각각 한 표씩 투표를 하는 것으로 볼 수 있어서, 이러한 방법을 보팅법 혹은 커미티머신 이라고 한다.
결합된 분류기의 일반화오차가 개별적인 분류기들의 평균적인 일반화오차의 1/M배로 감소한다.
학습기의 결합을 통해 단순히 하나의 학습기를 사용함에 비해 우수한 일반화 성능을 기대할 수 있으며, 이는 결합하는 학습기의 수 M에 비례한다.
그러나 이것은 각 분류기들이 서로 독립적인 경우에만 적용된다. 각 분류기들이 양의 상관관계를 가지면 일반화오차는 증가할 것이며, 반대로 각 분류기들이 음의 상관관계를 가지도록 학습된다면 일반화오차는 더욱 감소할 것이다.
단순한 배깅에 의해 분류기를 학습하는 경우에는 각 분류기들이 서로 양의 상관관계를 가지고 있다고 볼 수 있으므로, 일반화 오차의 감소가 클 것으로 기대하기는 어렵다.
그래서 나온 것이 분류기를 학습함에 있어서 보다 정교한 방법을 적용하여 더 큰 성능 향상을 기대할 수 있게 만드는, 부스팅 방법이다.
부스팅 방법은 먼저 학습된 분류기의 분류 결과를 활용하여 다음 학습할 분류기의 데이터를 적절히 조정하는 가중치조정 방법을 사용함으로써 오차를 줄이는 보다 효율적인 결합 방법을 제공한다.
'머신러닝' 카테고리의 다른 글
40 Must know Questions to test a data scientist on Dimensionality Reduction techniques (0) | 2017.03.21 |
---|---|
41 Essential Machine Learning Interview Questions (with answers) (0) | 2017.03.21 |
앙상블 기법 4 - 부스팅 (3) | 2016.01.26 |
앙상블 기법 2 (0) | 2016.01.26 |
앙상블 기법 1 (3) | 2016.01.26 |