피처 중요도

피처 중요도란 머신러닝에서 각 피처가 모델의 예측에 얼마나 중요한지를 나타내는 척도이다. 이는 모델이 결정을 내리는데 있어 각 피처가 얼마나 많은 영향을 미치는지 평가하는 것으로, 피처 중요도를 통해 어떤 피처들이 예측 변수에 가장 큰 영향을 미치는지 이해할 수 있다.

피처 중요도의 측정

트리 기반 모델에서

Decision tree 또는 Random forest와 같은 트리 기반 모델은 각 피처가 얼마나 많은 정보를 제공하는지에 따라 중요도를 할당한다. 트리 기반 모델들은 데이터를 분류하거나 예측할 때 각 피처가 얼마나 유용한지를 평가하여 중요도를 산출한다.

선형 모델에서

선형 회귀 또는 로지스틱 회귀와 같은 선형 모델에서는 각 피처에 할당된 가중치(Coefficient)의 크기와 방향을 통해 피처의 중요도를 평가한다. 가중치의 절대값이 클수록 해당 피처는 모델의 예측에 더 큰 영향을 미친다.

통계 기반 피처 중요도

상관 계수(Correlation Coefficients)와 같이 피처와 타겟 변수 사이의 관계를 수치적으로 평가하는 통계적 방법을 사용할 수도 있다.

피처 선택

필터(Filter Methods)

필터 방법은 모델 학습 전에 피처들의 통계적 특성을 평가하여 중요도를 측정한다. 상관계수, 상호정보량, 카이제곱 검정 등의 기법을 사용해 각 피처와 타겟 변수 간의 통계적 연관성을 계산한다. 계산 비용이 낮고 빠르며, 대규모 데이터에 용이하게 적용할 수 있지만, 피처 간 상호작용을 고려하지 않는다는 단점을 가진다.

래퍼(Wrapper Methods)

래퍼 방법은 실제로 데이터를 바탕으로 모델을 여러 번 학습시키면서, 각각의 피처 집합이 얼마나 좋은 성능을 내는지를 평가한다. 피처를 하나씩 추가하거나 제거하는 이 과정은 단순히 개별 피처의 중요도를 넘어서, 피처들 간의 상호작용이 모델 성능에 미치는 복합적인 영향도 함께 평가해 최적의 피처 조합을 찾아낸다.

이 방법의 큰 장점은 모델의 실제 성능을 기준으로 피처를 선택해 피처 선택 과정에서 매우 정확한 기준을 제공한다. 다만, 계산 비용이 상당히 높아지며 모델이 특정 피처 집합에 오버피팅될 위험도 있다.

임베디드(Embedded Methods)

임베디드 방법은 피처 선택을 모델 학습 과정 자체에 내장하는 매우 효율적인 접근법이다. 이 방식에서는 모델이 스스로 피처의 중요도를 계산하고, 그 중요도를 바탕으로 어떤 피처를 사용할지 결정한다. 계산 효율성과 모델 성능을 모두 고려할 수 있지만, 모델 종류에 따라 사용 가능 여부가 달라진다.

Feature Importances and Feature Selection