초록 열기/닫기 버튼

자료 내에 존재하는 이상치는 분석 결과의 타당성을 위협하는 중요한 요인으로 작용할 수 있기 때문에 이상치를 정확하게 탐지하여 처리하는 것은 매우 중요하다. 또한 이상치는 부주의한 특성을 지닌 응답자나 비정상적인 행동패턴을 나타내는 학습자 등, 대다수의 사례와는 다소 이질적인 특성을 지닌 집단을 나타내는 정보로서 기능할 수도 있다. 본 연구에서는 회귀분석 상황에서 스튜던트화 잔차 등과 같이 이상치 탐지를 위해 적용되어 온 전통적 방법과 함께 벌점화 기법을 응용한 -IPOD의 이상치 탐지 성능을 여러 각도에서 비교하였다. 또한 교육학 분야의 패널자료를 활용한 자료 분석을 통해 이상치를 검출하지 않은 회귀모형과 스튜던트화 잔차 및 -IPOD을 적용하여 이상치를 탐지 후 제외한 회귀모형 간의 분석 결과를 비교하였다. 본 연구의 결과를 요약하면 다음과 같다. 첫째, 모의실험 분석 결과 스튜던트화 잔차의 경우 자료 내에 이상치가 다수 포함되었을 때에는 가면효과가 발생할 가능성이 있는 반면 -IPOD은 대부분의 조건에서 비교적 이상치를 정교하게 검출하는 것으로 나타났다. 둘째, 실제 자료 분석 결과 이상치를 제외하지 않은 모형과 -IPOD을 적용하여 이상치를 검출한 모형 간에는 결정계수나 회귀계수에서 차이를 보였으며, -IPOD 방법이 타방법에 비해 설명력이 높을 뿐 아니라 회귀분석의 기본 가정을 더 잘 만족하는 것으로 나타났다. 이러한 결과를 바탕으로, 정교한 이상치 탐지에 있어서 -IPOD의 유용성과 한계 등에 관해 논의하였다.


Detecting and handling outliers is a critical process in data analysis, because the presence of outliers may threaten the validity of analysis results if they are not properly handled. Outliers could be considered as an indicator representing a distinct group that is different from the majority of the cases, such as respondents with carelessness or students with learning difficulties. The purpose of this study is to explore the applicability of the thresholding-based iterative procedure for outlier detection (-IPOD) method in the context of regression analysis, by comparing the accuracy of the proposed method with traditional outlier detection techniques such as studentized residuals and Mahalanobis distance. The findings of the simulation study showed that, overall, -IPOD detected outliers more accurately than other outlier detection methods. Mahalanobis distance performed poorly in outlier detection and masking effect was more frequently observed in the method using studentized residuals. Results of the real data analysis also showed that the regression model based on the -IPOD performed better in explaining the dependent variable and satisfied the model assumptions better than the regression models based on the other methods. Based on the results, implications and limitation of the -IPOD method in outlier detection was discussed.