Difference Between Removing Outliers Before vs. After Splitting the Data

이상치 제거와 데이터 분할 순서에 따르는 차이점

공부하던 중 문득 이상치 제거와 데이터 분할 순서에 따르는 차이점이 무엇인지 궁금하여 찾아보고 정리해둔다.

1. 이상치를 제거한 후 데이터를 분할하는 경우

이상치를 제거한 후 데이터를 분할하는 경우에는 다음과 같은 순서로 진행된다.

  1. 전체 데이터에서 이상치 탐지 및 제거
  2. 정제된 데이터셋을 훈련과 테스트 데이터로 분할
  3. 모델 학습과 평가

장점

  • 노이즈 데이터가 제거된 상태에서 모델 학습 → 모델이 안정적으로 학습 가능
  • 이상치에 의한 데이터 왜곡 방지
  • 훈련/테스트 분할의 균현 → 이상치가 분포에 영향을 주지 않음

단점

  • 이상치 제거 기준이 전체 데이터에 의존 → 일반화의 부족 가능성
  • 실제 운영 환경에서는 바로 제거가 어려울 수 있음
  • 이상치의 수가 너무 많으면 데이터 손실 큼 → 부족한 데이터

2. 데이터를 분할하고 이상치를 제거하는 경우

데이터를 분할하고 이상치를 제거하는 경우에는 다음과 같은 순서로 진행된다.

  1. 데이터를 훈련과 테스트 데이터로 분할
  2. 훈련 데이터에서만 이상치를 탐지하고 제거
  3. 모델 학습 후, 원본 테스트 데이터로 평가

장점

  • 실제 운영 환경 반영
  • 훈련 데이터에만 영향을 주므로 일반화 성능 상승 가능성
  • 테스트 데이터에 대한 조작이 없으므로 객관적 모델 평가 가능

단점

  • 테스트 데이터에는 여전히 이상치 존재
  • 훈련 데이터 이상치를 제거한 후, 테스트 데이터 이상치가 학습되지 않았을 가능성
  • 이상치로 간주된 데이터 실제로는 특별하고 중요한 데이터일 수도?

Conclusion

순서 장점 단점 추천상황
이상치 제거 먼저 모델 학습이 안정적이고 이상치가 없는 데이터 사용 전체 데이터에 대한 이상치 기준이 필요, 데이터 손실 가능성 데이터가 크고, 이상치가 많은 경우
데이터 분할 먼저 훈련 데이터에서만 이상치를 제거해 일반화 성능이 좋아질 가능성 테스트 데이터에는 이상치가 남아 모델이 이상치를 학습하지 못할 수도 있음 실제 환경과 유사하게 모델 테스트할 경우
  • 데이터가 많고 이상치가 명확한 경우 → 이상치 먼저 제거
  • 실제 환경 고려 → 데이터 분할 먼저
  • 이상치 제거가 모델 성능에 큰 영향이 없다면 → 이상치 포함한 채 학습 후, 이상치 감지



Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • [CS231n]Exercise1.5 - Features
  • [CS231n]Exercise1.4 - Two Layer Net
  • [CS231n]Exercise1.3 - Softmax
  • [CS231n]Exercise1.2 - Support Vector Machine