위키독:벤포드 법칙 - 조작이 어려운 이유 편집하기

[[File:/api/File/Real/590527d8395221e32dd8bc65]]

== 조작 ==

[[File:/api/File/Real/59052c8b395221e32dd8bc83]]

크게 보면 조작(造作)이란 인간의 개입으로 인해 무언가를 만들거나 바꾸는 것을 말한다. 즉, 원래 뜻으로 보면 나쁜 뜻은 아니다. 다만 현실은 조작이라고 하면 어감이 좋지 않게 들린다. 이때까지 조작이라는 단어가 위의 사진과 같이 나쁜쪽에 많이 쓰였기 때문.

재미있는 것은 네티즌들의 드립의 일환으로 앞의 그림과 같이

조작 '''→''' 주작 '''→''' 주작?! '''→''' 날아오르라 주작이여!1

라는 짤을 만들어내었다. 그런데 주작(做作)이라는 단어는 예전부터 있었던 말이며 그 뜻은 '없는 사실을 꾸며 만듦'이다. 거의 쓰이지 않던 사어에 가까운 말이었으나 기막힌 우연의 일치로 다시 부활시켜버렸다!

조작에는 승부조작이나, 여론조작, 논문조작같은 다양한 종류의 조작이 있지만 이곳에서는 벤포드 법칙으로 가려낼 수 있는 숫자조작을 다루기로 한다. 대표적으로 회계장부를 조작하여 공금을 횡령하거나 논문데이터 수치를 바꿔서 입맛에 맛는 결론을 이끌어내는 등의 조작이 있다. 이러한 조작을 막아내는 데는 수학적인 법칙이 큰 역할을 한다. 그것이 바로,

== 벤포드 법칙 ==

[[File:/api/File/Real/59053226395221e32dd8bcb3]]

'''Benford's law'''

''''''First-digit law''''''

''''''''''''

벤포드 법칙, 혹은 첫자리 숫자의 법칙이라고도 한다.

{{안내바|

[[File:/api/File/Real/59053108395221e32dd8bca8]]

간단히 보자면

[[File:http://latex.codecogs.com/gif.latex?P(n)&space;=&space;log(1+\frac%7B1%7D%7Bn%7D)|P(n) = log(1+\frac{1}{n})]]

이때 상용로그 log<sub>10</sub>에서 10은 생략한다.

</div>

</div>

어려운 수학은 집어치우고 결론부터 얘기하자면 벤포드 법칙이란 거의 모든 데이터에서 특정 숫자의 비율이 일정하다는 것이다. 즉, 어떠한 자료가 있을 때 벤포드 법칙에 따르면 첫번째 자리에 1이 나올 확률이 30.1%이며 2가 나올 확률은 17.6%, 3이 나올 확률은 12.5%하는 식으로 점점 줄어든다.

정확한 수치는 다음과 같다.

[[File:/api/File/Real/59052f7b395221e32dd8bc98]]

이 법칙에 따라 각 숫자의 비율이 이것에서 많이 벗어나 있으면 조작을 의심해볼 수 있다는 것. 물론 극도로 임위적인 자료, 정규분포나 균일 분포를 따르는 데이터에는 이것이 성립하지 않지만 이것이 '법칙'이라는 이름으로 불리는데는 그 만한 이유가 있다. 소수의 예외만 제외한다면 벤포드의 법칙은 단순히 회계장부가 아니라 거의 모든 곳에서 다 발견이 된다. 즉, 지구의 강의 너비, 각국의 인구수, 물리법칙 상수, 뉴스에 나오는 숫자, 비열, 압력, 분자량, 원자량, 디자인에 쓰이는 숫자, 미국 야구 리그, 사망률... 어찌보면 무서울 정도로 숫자로 표현가능한 모든 곳에서 벤포드의 법칙이 나오게 된다.

=== 발견 ===

일단은 미국의 프랭크 벤포드(Frank Benford)의 이름을 따와서 벤포드 법칙이라고 불리기는 하지만 이 현상을 처음 발견한 것은 미국의 수학자이자 천문학자인 사이먼 뉴컴(Simon Newcomb)이다.

뉴컴은 많은 사람들이 함께 쓰던 로그책에서 책의 앞부분이 다른 부분보다 많이 낡아 있는 것을 발견했다. 많은 학생들의 수학책을 살펴보면 1장인 집합부분만 더럽고 나머지는 깨끗한 것을 생각해보면 이해가 될 것이다. 그래서 이를 두고 흔히 '''모든 학생들은 집합(만)마스터다'''라는 농담을 하기도 한다.

<div contenteditable="false">

<div class="alert alert-danger" contenteditable="true">

'''[[File:http://latex.codecogs.com/gif.latex?\large&space;log|\large log]]'''

'''
'''

[[File:http://latex.codecogs.com/gif.latex?log|log]]란 마술에 가까운 수학적 술수이다. 곱셈을 덧셈으로 만들어서 계산을 보다 쉽게 하거나 10의 10제곱과 같은 엄청나게 큰 스케일에서 그래프를 쉽게 그리도록 도움을 주기도 한다. 다만 이때문에 로그 스케일의 그래프를 볼때는 매우 조심해야 한다. 보통 10을 밑으로 하는 상용로그를 쓰기 때문에 로그스케일에서 각 비율은 10을 곱한 것을 의미한다.

단순히 직선으로 된 그래프라고 해도 로그 스케일이라면 각 단위에 10을 곱해주면서 읽어야한다. 2단위가 곧 100배이고 3~4단위로 가면 1,000~10,000배의 스케일이 된다. 이 그래프를 일반 스케일로 그린다면 맨 아래에 있는 그래프는 알아 볼 수 없게 되므로 알아보기 쉽게 로그 스케일로 그리는 것.

아래의 그래프는 레이 커즈와일의 [[『특이점이 온다』]]에 삽입되어있는 그래프로 로그 스케일의 무서움을 보여준다.

제일 낮은 단위가 10이며 10<sup>10</sup>까지 커진다. 각 단위는 10씩 커지게 되며 마지막까지 가면 총 10,000,000,000배로 단위가 커지는 것. 10,000,000,000는 100억이다. 이것이 쉽게 읽혀지지 않으면[[이곳]]을 방문하자. 큰 수를 빠르게 읽는 팁에 대한 문서이다.

[[File:/api/File/Real/590546d6395221e32dd8bd25]]

상용로그가 10이 밑인 이유는 우리가 10진법을 쓰기 때문이지 별다른 이유는 없다.

}}

아무튼 뉴컴의 이 발견은 1881년의 일이다. 보통 로그표는 수가 커지는 순서대로 배열이 되어있으므로 계산량이 많아지면 큰 수의 법칙에 따라 모든 수가 고르게 사용될텐데 왜 '1'이 많은 앞부분만 많이 사용되었을까하는 호기심을 품게 된다. 그는 수학자답게 이 비율을 계산해보기로 한다.

그리고 다음과 같은 결론으로 이끈다.

첫 유효숫자 [[File:http://latex.codecogs.com/gif.latex?d|d]]로 시작하는 수의 비율은, 단순히 1/9가 아니라 [[File:http://latex.codecogs.com/gif.latex?log(1+\frac%7B1%7D%7Bd%7D)|log(1+\frac{1}{d})]]와 같이 나타난다. 이 사실을 발견한 그는 American Journal of Mathematics에 이를 발표했으나 수학적 분석의 부재로 인해 별다른 주목을 받지 못하고 묻히고만다.

그리고 세월이 흘러 1938년, 프랭크 벤포드가 뉴컴이 발견한 법칙을 정확하게 재발견하게 된다. 그리고 그는 이것을 뒷받침하기 위해 수많은 데이터들을 분석해보았다.

그가 분석한 데이터의 양은 실로 어마어마하다. 335개의 강 표면적, 104개의 물리상수, 1800개의 분자량, 수학 수첩의 5000개의 항목, 리더스 다이제스트문제에 있는 308개의 숫자, 342개의 거리주소 등을 모조리 분석하였는데 이 양이 대략 20,229거에 이른다. 그리고 그는 거의 모든 곳에서 이 법칙이 성립함을 확인하였다. 이에 이 법칙은 벤포드법칙으로 알려지게 되었다.

=== 몇 가지 사례 ===

* '''피보나치 수열'''

유명한 피보나치 수열도 벤포드 법칙을 따름을 볼 수 있다. 피보나치 수열이란 간단히(?)

[[File:https://wikimedia.org/api/rest_v1/media/math/render/svg/f985d9e529d4c5c95e5c8612eba9d2dac0c5a3d3|class=mwe-math-fallback-image-inline|F_{n}={\frac {1}{{\sqrt {5}}}}\left\{\left({\frac {1+{\sqrt {5}}}{2}}\right)^{n}-\left({\frac {1-{\sqrt {5}}}{2}}\right)^{n}\right\}={(1+{\sqrt {5}})^{n}-(1-{\sqrt {5}})^{n} \over 2^{n}{\sqrt {5}}}]]

n번째 숫자를 구하는 피보나치 공식

와 같이 표현하며 더 쉽게 얘기하면 1, 1, 2, 3, 5, 8, 13, 21, 34 ...와 같이 바로 앞 숫자 둘을 더한 것이 다음 숫자가 되는 배열을 말한다. 이것이 흔히 말하는 황금율을 만드는 수열이다. 인접한 두 숫자의 비율은 처음에는 1이지만 뒤로 가면 갈 수록 황금율인 1.618로 수렴하게 된다.

* '''2의 거듭제곱'''

2의 거듭제곱, 그러니까 2<sup>1</sup>, 2<sup>2</sup>, 2<sup>3</sup> .... 2<sup>100000</sup>을 쭉 계산하여 그 첫번째 자리수를 보면 벤포드 법칙이 성립한다. 이는 수학적으로 계산해보았을 때 각 숫자의 첫번째 자리수는 벤포드 법칙과 같이 [[File:http://latex.codecogs.com/gif.latex?log(1+\frac%7B1%7D%7Bd%7D)|log(1+\frac{1}{d})]]가 나오게 되므로 당연히 맞다는 것을 알 수 있다. 2뿐만 아니라 일반적인 숫자 [[File:http://latex.codecogs.com/gif.latex?\alpha|\alpha]]의 거듭제곱 [[File:http://latex.codecogs.com/gif.latex?log\alpha|log\alpha]]가 무리수이면 벤포드의 법칙을 따르게 된다. 이때 10은 제외하게 된다. 10은 몇 번을 곱해봤자 1과 0밖에 나오지 않으니 당연한 수순.

* '''연이자의 계산'''

이것은 예를 들어보면 금방 이해가 된다.

은행에 1,000달러를 넣어두고 (말도 안되지만) 연이율이 5.4%라고 하자. 그렇게 되면 

[[File:/api/File/Real/5905433d395221e32dd8bd10|480x621px]]

와 같은 결과가 나온다. 이 표는 카이스트 명강 시리즈 중 첫번째인 『구글 신은 모든 것을 알고 있다.』 117p에 있는 표이며 정하웅교수의 강의에 나온 내용 중 하나이다.

이렇듯 1이 많고 그 다음이 2 그 다음 순서가 3...임을 알 수 있다. 이는 1,000달러라 그럴지도 모른다고 생각할 수도 있지만 2,000달러로 시작해도 마찬가지고 3,000달러로 시작해도 마찬가지로 1이 항상 가장 많이 나오게 된다. 충분히 많은 데이터가 주어지면 벤포드 법칙은 항상 성립한다는 것.

* '''회계 사기 탐지'''

물론 이것이 어디에서나 성립하므로 실제로 조작을 탐지하는데 쓰이고 있다. Hal Varian이라는 사람이 1972년, 벤포드 법칙을 회계사기를 방지하는데에 사용할 수 있다는 법안을 제출했다. 이에 따라 Mark Nigrini가 이 법칙이 실제 사례에도 쓰일 수 있다는 것을 보여주어 현장에서도 쓰이게 되었다.

한국의 국세청과 미국의 IRS에서 지금도 사용하고 있으니 조작은 매우 어렵다고 볼 수 있다.

=== 계획대로 ===

[[File:/api/File/Real/5905391f395221e32dd8bcda]]

그렇다면 이러한 의문이 들 수 있다. 만약에 조작을 하더라도 벤포드법칙에 맞게 첫번째 자리 수를 1을 30%에 가깝게 만들고 2를 17.6%에 맞추는 등 1~9까지의 숫자를 벤포드의 법칙에 맞게만 배열하면 걸리지 않고 조작을 할 수 있지 않을까.

하지만 벤포드의 법칙은 생각보다 더 단단해서 이러한 얄팍한 술수에 넘어가지 않는다. 1차 거름망인 벤포드 법칙을 통과했다고 해도 국세청의 프로그램은 장부에 2를 곱해본다. 조작이 되어있지 않은 자연스러운 장부일 경우에는 2를 곱해도 벤포드의 법칙은 성립된다. 하지만 조작을 했다면 이 수치가 흐트러지게 되고 단번에 벤포드 법칙이 성립되지 않는다. 그렇다면 2를 곱한 것까지 벤포드 법칙에 맞도록 교묘하게 조작하면 어떨까?

이런 경우 3을 곱해본다.(...) 통과했다면? 4,5,6....을 계속해서 곱해본다. 자연스러운 수치라면 이 모든 것은 벤포드 법칙에 맞게 된다. 이 모든 숫자에 맞게 조작을 하는 노력보다 차라리 정직하게 하는 것이 나을 정도이다.

[[분류:위키독 포크/일상과학 WiKi]]