전체 글
[ML] GridSearchCV
1. What is GridSearch CV Grid search is exploratory way to find hyper parameters making best score of model. 그리드 서치를 하는 이유는 " 가장 우수한 성능을 보이는 모델의 하이퍼 파라미터를 찾기 위해서 ". 이유는 단순하다. 모든 경우의 수를 때려 넣어보고 가장 성능이 좋게 만드는 모델의 하이퍼 파라미터를 찾는거다. 크리드 서치 개념 [Machine learning] 쉽게 설명하는 Grid search - 모델 성능을 최고로 만드는 hyper parameter를 찾아서 (200727) index 1. Grid search 의 정의 2. 코드 구현 및 결과 3. 유사한 다른 방법들 1. Grid search 란 무엇인가..
[ML] Data Leakage
1. What is Data Leakage ? Data leakage (or leakage) happens when your training data contains information about the target, but similar data will not be available when the model is used for prediction. This leads to high performance on the training set (and possibly even the validation data), but the model will perform poorly in production. In other words, leakage causes a model to look accurate ..
[ML] XGBoost
1. What is ensemble ? 머신러닝 앙상블 기법 앙상블 학습(Ensemble Learning)은 여러개의 분류기를 생성하고, 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법을 말한다. 강력한 하나의 모델을 사용하는 대신 보다 약한 모델 여러개를 조합하여 더 정확한 예측에 도움을 주는 방식. 데이터 오픈 플랫폼 캐글(Kaggle)에서 XGBoost, LightGBM과 같은 앙상블 알고리즘이 머신러닝의 선도 알고리즘으로 인기를 누리고 있다. 앙상블 학습 유형 보팅(Voting) 여러 개의 분류기가 최종 예측 결과를 결정하는 방식 서로 다른 알고리즘을 여러개 결합하여 사용 배깅(Bagging) 데이터 샘플링(Bootstrap)을 통해 모델을 학습시키고 결과를 집계하는 방법 모두 같은 유형..
[ML] Cross-Validation
1. So far 지금까지 모델을 평가할 때, Hold-out Cross Validation을 적용하여 훈련데이터와 평가 데이터를 나누었다. 이 방식의 문제점은 나누어진 평가 데이터는 훈련에 사용되지 못해 모델에 필요한 데이터셋의 손실이 발생하게 된다. 2. What is cross-validation ? 교차 타당도(Corss-Validation)는 수학, 통계학, 과학 분야에서 동일한 모집단에서 추출한 독립적인 두 표본 집단의 예언 변인과 기준 변인의 관계가 일관성을 유지하는 정도이다. 데이터셋을 5개로 나누게 된다면 1개는 평가 데이터로, 4개는 훈련 데이터로 나누어 모델을 학습 및 평가하게 된다. 기존의 Hold-Out CV는 한번 훈련하고 끝났다면, K-Fold는 평가 데이터를 여러 번 옮겨 5..