매직블럭 2013. 7. 16. 13:38



outlier 우리말로는 이상치 라고 부른다.


자료의 전체 데이터는 랜덤한 값이 아니라면 일정한 패턴을 가지고 있는게 보통일텐데


그러한 평균형태에서 많이 떨어져 혼자 튀는 값을 갖는 관측값을 outlier 라고 부른다.


뭐 대충 데이터 형태 중간에 포함된 임펄스 노이즈 같은 녀석이라고 생각하면 될 듯 하다.


전체 데이터의 양이 충분할때는 이러한 outlier 가 데이터 전체에 큰 영향을 끼치지는 않지만


반대로 데이터의 양이 충분하지 않을 경우에는 이러한 outlier로 인하여 전체 데이터의 형태가


크게 달라질 수 있으므로 주의해야 할거같다..



=============================================================


2014. 12. 09 추가


항상 데이터의 전반적인 패턴에 포함된 녀석이라고 inlier 인것은 아니고

반대로 전반적인 패턴과 다른 녀석이라고 outlier 가 되는것은 아니다.


내가 원하는 / 계산한 / 검출하고자하는 결과에 부합하는 경우가 inlier

나의 목적에 맞지 않는 녀석이 outlier 가 된다.