전체 글

전체 글

    [FE] Principal Component Analysis

    [FE] Principal Component Analysis

    1. Introuduction 주성분 분석(Principal Component Analysis; PCA)는 군집화와 비슷하게 우선순위에 따라 데이터를 분할하는 방식이다. 다만 데이터 사이의 관계를 발견하는데 좀 더 초점을 두고 있으며 공분산에 따라 데이터를 축약하게 된다. 2. Principal Component Analysis PCA는 고차원의 데이터를 저차원의 데이터로 축소시키는 차원 축소 방법중 하나로 훈련 정보를 최대한 유지하면서 변수의 개수를 줄이는 방법이다. PCA를 통해 시각화, 노이즈 제거, 모델 성능 향상을 유도할 수 있다. https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-9-PCA-Principal-Compon..

    [FE] Clustering with K-means

    [FE] Clustering with K-means

    1. What is clustering Clustering은 간단하게 말해서 데이터 끼리 얼마나 비슷한지에 근거해서 그룹을 할당하는 분석 기법이다. 군집 라벨을 할당해줌으로서 머신 러닝 모델이 관계를 해석하는데 도움을 줄 수 있다. 2. Cluster Label as a Feature 단일 변수에 대해서 군집화는 binning과 discretization 변환을 적용할 수 있고, 복수의 변수에 대해서는 범주형 변수를 결과로 출력하는 군집을 생성한다. 군집 분석은 복잡한 관계의 변수들을 간단한 묶음으로 분해시켜 모델이 변수들을 한번에 쉽게 학습하게끔 도움을 준다. 3. K-Means clustering K-means clustering은 일직선 상의 거리에 기초해 유사성을 측정하는 군집 분석이다. K-me..

    [FE] Creating Features

    1. Tips on Discovering New Features Data docment에 언급된 feature를 이해한다 도메인 지식을 얻기위해 여러 자료를 통해 조사한다 이전 연구에서 어떻게 모델링 및 EDA를 진행했는지 살펴본다 데이터 시각화를 통해 feature에 대한 이해를 높인다 2. Mathematical Transforms 연속형 변수에대한 관계는 수학적 공식을 통해 표현될 수 있다. 판다스 라이브러리에서는 수학적 연산을 apply하여 데이터를 새롭게 변환할 수 있으며, 제곱이나 로그변환을 통해 모양을 바꿀 수 있다. # 2) Mathematical Tranform autos["displacement"] = ( np.pi * ((0.5 * autos.bore) ** 2) * autos.str..

    [FE] Mutual Information

    [FE] Mutual Information

    1. What is Feature Engineering Improve a model's predictive performance Reduce computational or data needs Improve interpetability of the results Feature Engineering은 머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징을 만들어내는 과정이다. 즉, 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업이다. 머신러닝은 입력 데이터의 함수이며 선형 또는 비선형의 형태를 가질 수 있는데, 우리는 훈련 데이터를 사용해서 이 함수를 학습하지만, 매번 학습이 잘 되어 결과가 나타나지 않는다. 내가 가지고 있는 데이터가 방대하다해도 그 데이터를 모..