통계

통계(統計)는 어떠한 집단의 현상에 대한 것을 수치로 기록한 것들의 모음을 의미한다. 사전적인 의미로는 한데 몰아서 어림잡아 계산함을 뜻한다.

1 종류[편집]

  • 기술통계
    단순한 사실만을 집계하는 것으로 말 그대로 사실을 기술하는 통계라는 의미이다. 실제 조사한 값을 그대로 사용하는 경우가 많다. 국가단위에서 만들어지는 센서스와 같은 통계자료가 바로 이 기술통계에 해당한다.
  • 분석통계
    기술통계가 단순한 사실만을 보여주는데 비해 분석통계는 다른 통계를 연계하여 이러한 사실이 어떠한 이유에서 나타났는지를 분석하는 것이라 할 수 있다. 이를 위해 간단하게는 상관관계 분석부터 시작하여 각종 검증 도구와 분석도구들이 사용된다. 물론 이 과정에서 입맛에 맞게 잘 가공된다 통계학이라는 학문에서 실질적으로 많이 다루는 부분이 바로 이 분석통계의 기법과 그 도구들이다.

2 신뢰성 문제[편집]

세상에는 세 종류의 거짓말이 있다. 하나는 새빨간 거짓말, 다른 하나는 선의의 거짓말, 그리고 나머지 하나는 바로 통계이다.

통계를 악용하여 똑같은 자료인데 완전히 다른 내용을 보여줄 수도 있다. 괜히 통계를 거짓말의 범주에 넣는 것이 아니다.

2.1 조작예시[편집]

2.1.1 y축 조작[편집]

그래프 세로축의 수치값 또는 범위를 조작해서 1% 감소를 50% 감소한 것처럼 보이게 하는 수작이 있다.

Librewiki 30days statistics 20151031.png

위 그래프들은 리브레 위키의 2015년 10월 31일 기준 최근 30일 동안 활동한 사용자이다. 위 두 그래프는 같은 데이터를 표시한 그래프지만, y축 값을 적절히 조작함으로써 전혀 다른 느낌의 결과값이 나오게 된다.

이러한 눈금축 조작은 통계값 조작 중에서도 가장 기초적인 수준에 해당하는 것이다.

2.1.2 변인 왜곡[편집]

분석통계에서는 해당 변인에 대한 조작을 통하여 얼마든지 손쉽게 원하는 결론을 이끌어낼 수 있다. 한 가지 예를 들면 "패스트푸드를 섭취한 학생들의 폭력성이 높다"라는 가설을 검증할 때, 가장 간단한 방법은 패스트푸드 섭취량과 폭력행위로 입건된 학생의 상관관계를 밝히면 되는 것이다. 문제는 사회현상이나 인간의 행동이 그렇게 단순한 'A이면 B이다'라는 명제로 먹혀들기 어려우므로 또다른 변인이 있는지 검증을 해야 하는데, 이를 생략하거나 왜곡하는 식으로 얼마든지 원하는 결론을 도출할 수 있는 것이다.

이러한 예시 상황에서 만일 당신이 패스트푸드 업체의 몰락을 바란다면 그냥 패스트푸드 섭취량이 많을수록 폭력행위 입건의 건수가 높다는 수치만 보여주면 된다. 반대로 패스트푸드에 대한 편견을 논파하기 원한다면혹은 패스트푸드 업체에서 연구비를 후원받는다면 패스트푸드를 먹게 되는 다른 요인[1]을 찾아서 패스트푸드에 면죄부를 줄 수도 있다. 이외에 전혀 무관한 상관관계를 가지지만 다른 변인(허위변인)을 끼워다 넣고 두 요인이 서로 상관이 있다고 주장하는 것이나, 그 반대의 경우도 가능하다.

3 관련 문서[편집]

4 참고문헌[편집]

5 각주

  1. 예를 들면 맞벌이 가정이라 패스트푸드를 자주 먹게 된다는 요인을 찾을 경우, 패스트푸드는 중간 변인이 되고 맞벌이가 폭력성의 원인이 되는 것이다.