Difference Between Removing Outliers Before vs. After Splitting the Data
이상치 제거와 데이터 분할 순서에 따르는 차이점
공부하던 중 문득 이상치 제거와 데이터 분할 순서에 따르는 차이점이 무엇인지 궁금하여 찾아보고 정리해둔다.
1. 이상치를 제거한 후 데이터를 분할하는 경우
이상치를 제거한 후 데이터를 분할하는 경우에는 다음과 같은 순서로 진행된다.
- 전체 데이터에서 이상치 탐지 및 제거
- 정제된 데이터셋을 훈련과 테스트 데이터로 분할
- 모델 학습과 평가
장점
- 노이즈 데이터가 제거된 상태에서 모델 학습 → 모델이 안정적으로 학습 가능
- 이상치에 의한 데이터 왜곡 방지
- 훈련/테스트 분할의 균현 → 이상치가 분포에 영향을 주지 않음
단점
- 이상치 제거 기준이 전체 데이터에 의존 → 일반화의 부족 가능성
- 실제 운영 환경에서는 바로 제거가 어려울 수 있음
- 이상치의 수가 너무 많으면 데이터 손실 큼 → 부족한 데이터
2. 데이터를 분할하고 이상치를 제거하는 경우
데이터를 분할하고 이상치를 제거하는 경우에는 다음과 같은 순서로 진행된다.
- 데이터를 훈련과 테스트 데이터로 분할
- 훈련 데이터에서만 이상치를 탐지하고 제거
- 모델 학습 후, 원본 테스트 데이터로 평가
장점
- 실제 운영 환경 반영
- 훈련 데이터에만 영향을 주므로 일반화 성능 상승 가능성
- 테스트 데이터에 대한 조작이 없으므로 객관적 모델 평가 가능
단점
- 테스트 데이터에는 여전히 이상치 존재
- 훈련 데이터 이상치를 제거한 후, 테스트 데이터 이상치가 학습되지 않았을 가능성
- 이상치로 간주된 데이터 실제로는 특별하고 중요한 데이터일 수도?
Conclusion
순서 | 장점 | 단점 | 추천상황 |
---|---|---|---|
이상치 제거 먼저 | 모델 학습이 안정적이고 이상치가 없는 데이터 사용 | 전체 데이터에 대한 이상치 기준이 필요, 데이터 손실 가능성 | 데이터가 크고, 이상치가 많은 경우 |
데이터 분할 먼저 | 훈련 데이터에서만 이상치를 제거해 일반화 성능이 좋아질 가능성 | 테스트 데이터에는 이상치가 남아 모델이 이상치를 학습하지 못할 수도 있음 | 실제 환경과 유사하게 모델 테스트할 경우 |
- 데이터가 많고 이상치가 명확한 경우 → 이상치 먼저 제거
- 실제 환경 고려 → 데이터 분할 먼저
- 이상치 제거가 모델 성능에 큰 영향이 없다면 → 이상치 포함한 채 학습 후, 이상치 감지
Enjoy Reading This Article?
Here are some more articles you might like to read next: