일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Reinforcement Learning
- 꿈
- 번역
- openai
- SQL
- cs231n
- Andrej Karpathy
- 인공지능
- neural networks
- deep learning
- 세상
- Hvass-Lab
- 행복
- Tutorial
- 사랑
- tutorials
- Artificil Intelligence
- 한국어
- 답변
- SAS
- DeepLearning
- 질문
- TensorFlow Tutorials
- 매크로
- 강화학습
- 딥러닝
- 머신러닝
- 신경망
- tensorflow
- machine learning
- Today
- Total
목록머신러닝 (7)
Economics & Deeplearning
xgboost 로 gbm 의 시대가 왔지만(정규화와 분산성?) lightgbm 이 leaf wise gbm 으로 속도와 정확성 두마리 토끼를 잡았다고 생각했는데 boosting 모델의 parameter tuning 은 항상 문제였다 overfitting 이 되기 쉬워 조정을 잘 했어야하는데 오늘 catboost 에 대한 글을 읽으면서 논문을 대충 훑어봤는데 무릎이 탁 쳐진다. 기본설정이 좋아서 파라미터 튜닝이 별반 차이 없다고 하는데 그 이유를 알 것 같았다. https://arxiv.org/abs/1706.09516 Fighting biases with dynamic boosting catboost 의 구현 알고리즘이다. all current implementations are susceptible t..
https://www.analyticsvidhya.com/blog/2017/03/questions-dimensionality-reduction-data-scientist 원문은 위에 링크에 존재합니다. 발번역입니다. 원문을 읽어보시는 게 좋을 것 같습니다. 수백개의 변수를 가진 데이터셋으로 모델을 만들거나 수 많은 변수들이 상관관계가 있을 경우, 차원 축소를 쓴다.Questions & Answers1. 1000개의 입력변수와 1개의 타겟 변수를 갖는 머신러닝 문제를 상상하자. 입력 변수들과 타겟 변수 사이의 관계에 기반하여 가장 중요한 100개를 선택한다.이것은 차원 축소의 예인가? A. Yes B. No Solution : (A)2. [True or False] 차원 축소 알고리즘을 적용하기 위해서는 ..
https://www.springboard.com/blog/machine-learning-interview-questions/ 원문은 위에 링크에 존재합니다.관련 있는 내용에 대해서만 짤막하게 적겠습니다. 발번역입니다.원문을 읽어보시는 게 좋을 것 같습니다.Q1- What’s the trade-off between bias and variance? Q1- 편의-분산 상충관계( 바이어스 배리언스 트레이드 오프) 란 무엇인가?More reading: Bias-Variance Tradeoff (Wikipedia) 편의(bias, 바이어스)란 사용하는 학습 알고리즘에서 잘못되거나 너무 단순한 가정때문에 발생하는 에러. 데이터에 대한 underfitting이 발생할 수 있다.분산은 사용하는 학습 알고리즘이 너무 ..
부스팅 AdaBoost 알고리즘부스팅은 간단한 학습기들이 상호보완적 역할을 할 수 있도록 단계적으로 학습을 수행하여 결합함으로써 그 성능을 증폭시키는 것을 기본 목적으로 하는 방법으로, 그 이름도 이러한 목적에서 유래하였다.부스팅이 배깅과 다른 가장 큰 차이점은 분류기들을 순차적으로 학습하도록 하여, 먼저 학습된 분류기의 결과가 다음 분류기의 학습에 정보를 제공하여, 이전의 분류기의 결점을 보완하는 방향으로 학습이 이루어지도록 한다는 것이다. 가장 처음에 제안된 부스팅 방법에서는, 각 학습기별로 서로 다른 데이터 집합을 사용하는 것이다.첫 번째 데이터 집합을 이용해서 첫 번째 분류기를 학습하고, 두 번째 분류기를 학습할 때에는 새로운 집합을 생성하여 첫 번째 분류기에 입력으로 주어 분류를 수행하게 한 후..
배깅과 보팅배깅은 학습기의 선택과 관련된 방법보팅은 학습기의 결합과 관련된 방법주어진 제한된 크기의 데이터 집합을 이용하여 여러 개의 분류기를 학습시키는 가장 간단한 방법은 리샘플링 기법을 사용하는 것이다.붓스트랩배깅은 붓스트랩 방법을 학습기 결합에 적용한 것으로, bootstrap aggregating 의 약자로 이름이 지어졌다.배깅법에 의해 분류기가 학습되면, 이를 이용하여 최종 결과를 얻기 위한 결합함수를 정의해 주어야 한다. 가장 간단한 방법으로는 M개의 분류기 결과를 모두 동일한 정도로 반영하여 평균한 결과를 얻는 방법을 생각해 볼 수 있다. 이는 각 분류기가 일종의 위원회 역할을 하여, 최종 결과에 각각 한 표씩 투표를 하는 것으로 볼 수 있어서, 이러한 방법을 보팅법 혹은 커미티머신 이라고 ..
첫 번째, 서로 다른 복수개의 분류기를 학습하는 방법에 대해 생각해보면 다음과 같은 것들이 있다. 학습 알고리즘의 차별화 : 베이즈 분류기와 k-NN 분류기를 결합하거나, 신경망과 SVM을 결합하는 등 접근 방법 자체가 다른 것을 선택한다.모델 선택과 관련된 파라미터의 차별화 : k-NN 분류 알고리즘을 적용하되 k 값을 달리하면서 j로 다른 분류기를 복수 개 만들어 사용하거나, 다층 퍼셉트론의 경우 은닉층의 뉴런 수를 달리하면서 여러 가지 모델을 만들어 사용한다.학습데이터의 차별화 : 같은 모델을 사용하되, 학습에 사용되는 데이터 집합을 달리하여 복수 개의 분류기를 만든다. 예를 들어, 같은 신경망 모델을 사용하되, 전체 학습데이터를 적절히 조합하여 서로 다른 학습데이터 집합들을 만들어 이들을 학습에 ..
앙상블 기법 앙상블은 조화라는 뜻을 가진 단어로, 음악에서는 두 사람 이상의 연주자에 의한 합주 또는 합창을 말한다. 기계학습에서 신경망이나 SVM과 같은 알고리즘은 정교화되고 대규모화되어 예측 성능이 매우 뛰어나지만, 학습의 대상이 되는 파라미터의 수가 많아 학습에 시간이 많이 걸리고, 최적해를 찾기도 힘들다.또한 과도적합의 문제가 동반된다. 지나치게 복잡한 모델을 사용하는 경우 불충분한 수의 학습데이터에 과도적합됨으로 인해 일반화오차가 증가하는 현상이 있다. 앙상블 기법은 간단한 알고리즘으로 학습을 수행하되, 복수 개의 학습 결과를 결함함으로써 결과적으로 보다 좋은 성능을 내고자 하는 방법이다. 어떤 학습기를 사용할 것인가?비교적 간단하면서 서로 차별성이 존재하는 분류기를 선택함으로써 결합을 통한 효..