대푯값

대푯값(代表-)은 어떤 자료를 대표하는 값으로, 자료의 특성에 따라 적절한 것을 택해야 한다.

평균[편집 | 원본 편집]

(산술)평균(平均, mean, average)은 변량의 합을 그 개수로 나눈 것이며, 보편적으로 쓰이는 대푯값이다. 우리가 가진 (모집단의) 변량들을 [math]\displaystyle{ x_1, x_2, \cdots, x_N }[/math]이라 하면

[math]\displaystyle{ \mu = \frac{\sum_{i=1}^N x_i}{N} }[/math]

을 평균이라 한다. 모집단의 평균을 특히 모평균(母平均, population mean)이라 한다. 모평균은 확률변수기댓값과 같다. 모집단에서 표본 [math]\displaystyle{ x_1, \cdots, x_n }[/math][1]을 추출하였을 때 그의 평균 [math]\displaystyle{ \bar{x}=\frac{\sum_{i=1}^n x_i }{n} }[/math]표본평균(標本平均, sample mean)이라 한다.

평균은 극단적인 값을 제거하지 못한다는 단점이 있다. 예를 들어, 평균 연봉이 5000만원인 직원 100명의 회사가 있다고 하자. 하지만 실상은 일반 사원 98명은 월급이 100만원이었고최저시급에도 못 미친다(...), 회장과 사장은 24억 5100만원(...)이었다. 현실은 시궁창 평균 연봉 5000만원의 광고를 보고 입사한 사원에게 애도를. 이런 이상(理想)적이지 않은 자료는 평균이 대표할 수 없게 된다.

중앙값[편집 | 원본 편집]

중앙값(median, 中央-)은 자료를 크기 순으로 나열할 때 가운데에 놓이는 값 - 홀수 개의 자료는 정확히 가운뎃값, 짝수 개의 자료는 가운데의 두 값의 평균 - 을 말한다. 위의 월급쟁이 예시(...)에서, 중앙값은 49번째와 50번째 변량의 평균인 100만원이다. 이런 이상(異常)한 변량이 있는 자료는 중앙값이 더 자료를 잘 나타낸다고 할 수 있다. 하지만 표본들의 중앙값으로 모집단의 것을 추측하기는 평균에 비하여 매우 어렵기 때문에, 심각하게 이상한 변량이 있지 않은 경우 대개 평균을 이용한다.

최빈값[편집 | 원본 편집]

최빈값(mode, 最頻-)은 자료에서 가장 자주 나오는 값을 말한다. 가장 자주 나오는 값이 여러 개 있을 경우 그 모든 값을 최빈값으로 취급하지만 같은 값들이 같은 개수만큼 있는 자료인 경우 최빈값은 없다고 한다. 즉, 자료 {3, 5, 5, 9, 9, 7, 6, 9, 5, 5, 3, 9}의 경우엔 최빈값이 5와 9이며, 자료 {3, 3, 3, 5, 5, 5}의 경우엔 최빈값이 없다. 이와 같이 최빈값은 여러 개가 나올 가능성이 있기 때문에 대푯값으로는 바람직하지 못하고, 수리적인 분석이 어렵기 때문에 잘 사용되지 않는다.

참고[편집 | 원본 편집]

각주

  1. renumbering 후의 결과이다. 즉 모집단의 [math]\displaystyle{ x_{j_i} }[/math][math]\displaystyle{ x_i }[/math]으로 다시 이름 붙인 것이다.