데이터 공부 노트

[ML] Underfitting and Overfitting

2022.02.14

1. Experimenting with Different Models 과대적합(Overfitting)은 모델의 복잡성이 증가하여 훈련데이터에 대해서는 높은 정확도와 예측력을 가지고 있지만, 평가 데이터의 예측력은 떨어지는 현상이다. 과소적합(Underfitting)의 경우 모델이 패턴과 잘못된 파라미터로 인해 정확도와 예측도가 떨어지는 현상을 의미한다. 2. Codes from sklearn.metrics import mean_absolute_error from sklearn.tree import DecisionTreeRegressor def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y): model = DecisionTreeRegressor(max_..

Course/[Kaggle] Data Science

[ML] Model Validation

2022.02.14

1. What is Model Validation 대부분의 어플리케이션에서 모델의 성능을 나타내는 척도는 예측 정확도이다. 즉, 모델의 예측값이 얼마나 실제값과 가까운지를 측정하는 것이다. 여기서 사람들이 혼동하는 부분이 훈련데이터에 대해서 예측정확도를 구하는 것이 예측정확도로 알고 있다. 모델 성능을 측정하는데 많은 기법이 있지만 흔히 쓰이는 수식은 평균절대오차 MAEdlek. error = actual - predicted 오차는 실제값과 예측값의 차이를 계산하는데 MAE는 이 값에 절댓값을 씌워 모든 오차를 양의 값으로 변환한 후 평균을 계산한다. from sklearn.metrics import mean_absolute_error predicted_home_prices = melbourne_mod..

Course/[Kaggle] Data Science

[ML] Your First Machine Learning Model

2022.02.14

1. Selecting Data for Modeling 변수나 컬럼을 선택하기 위해 우리는 데이터 셋의 컬럼들을 살펴볼 필요가 있다. 이것은 데이터 프레임의 columns 속성을 통해 확인 가능하다. import pandas as pd melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' melbourne_data = pd.read_csv(melbourne_file_path) melbourne_data.columns # The Melbourne data has some missing values (some houses for which some variables weren't recorded.) # dropna drops mi..

Course/[Kaggle] Data Science

[ML]Basic Data Exploration

2022.02.14

1. Using Pandas to Get Familiar With Your Data 판다스는 데이터 사이언티스들이 데이터를 다루는 가장 원초적인 툴이다. import pandas as pd 판다스 라이브러리에서 가장 중요한 부분은 데이터 프레임이다. 데이터 프레임은 테이블로 생각되는 데이터 타입을 가지고 있으며 엑셀의 sheet, SQL 데이터베이스의 테이블과 비슷하다. # Save filpath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melb..

전체 글

[ML] Underfitting and Overfitting

[ML] Model Validation

[ML] Your First Machine Learning Model

[ML]Basic Data Exploration

티스토리툴바