본문 바로가기

Data Analysis/Imputation2

[Imputation] 결측치 대치 방법 저번 글에서는 결측치의 유형 (MCAR, MAR, MNAR)에 대해 작성하였는데, 이번 글에서는 결측치를 처리하는 방법, 즉 결측치 대치(Imputation)에 대해 알아보고자 합니다. 결측치 유형에 대해 궁금하시다면, 이 링크를 참고해주시면 됩니다. 물론 결측치가 많지 않을 경우에는 추가적인 전처리를 진행하지 않고 그대로 활용하거나 아예 제거하는 방법도 있지만, 대부분의 경우에는 결측치를 다른 값으로 대치하여 분석에 활용하게 됩니다. 1. Simple Imputation (단순 대치법) Simple Imputation (단순 대치법)은 해당 열의 결측치들을 특정 하나의 값으로 대치하는 방법을 의미합니다. 결측치를 제외한 값들의 1) 평균(mean), 2) 중앙값(median), 3) 최빈값(mode) .. 2022. 10. 24.
[Imputation] 결측치(Missing Value) 관련 정리 이번 글에서는 데이터 분석 관련 프로젝트를 진행하다보면 거의 직면할 수 밖에 없는 결측치에 대해 다뤄볼 것입다. 결측치를 많이 포함하는 데이터로 머신러닝/딥러닝 모델을 학습시키게 되면, 결과를 신뢰할 수 없을 뿐만 아니라 정확도에도 큰 영향을 미치게 됩니다. 따라서 분석을 하기 이전에 결측치를 제거하거나 대치(Imputation)해줘야 합니다. 이러한 결측치를 처리하는 방법에는 여러가지가 존재하는데, 해당 방법들을 살펴보기 이전에 우선 결측치 자체에 대해 살펴보고자 합니다. 결측치는 다음의 세 가지 유형으로 나뉠 수 있습니다. MCAR (Missing Completely at Random) : 결측치 발생이 완전 무작위 MAR (Missing at Random) : 결측치 발생이 해당 열에서는 무작위이지.. 2022. 10. 21.