In ML, Data Leakage - 2
머신러닝 전처리 자주하는 안 좋은 습관들 모음 참고 자료: https://scikit-learn.org/stable/common_pitfalls.html Sample 데이터 먼저 가상의 데이터를 하나 생성합니다. from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split random_state = 42 X, y = make_regression(random_state = random_state, n_features = 1, noise = 1) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = random_state) Inconsistent preprocessing 모델을 학습시킬 때 이러한 데이터 변환을 사용하는 경우 테스트 데이터든 프로덕션 시스템의 데이터든 후속 데이터셋에도 사용해야 합니다.