위키독:벤포드 법칙 - 조작이 어려운 이유

파일:/api/File/Real/590527d8395221e32dd8bc65

조작[원본 편집]

파일:/api/File/Real/59052c8b395221e32dd8bc83

크게 보면 조작(造作)이란 인간의 개입으로 인해 무언가를 만들거나 바꾸는 것을 말한다. 즉, 원래 뜻으로 보면 나쁜 뜻은 아니다. 다만 현실은 조작이라고 하면 어감이 좋지 않게 들린다. 이때까지 조작이라는 단어가 위의 사진과 같이 나쁜쪽에 많이 쓰였기 때문.

재미있는 것은 네티즌들의 드립의 일환으로 앞의 그림과 같이

조작 주작 주작?! 날아오르라 주작이여!1

라는 짤을 만들어내었다. 그런데 주작(做作)이라는 단어는 예전부터 있었던 말이며 그 뜻은 '없는 사실을 꾸며 만듦'이다. 거의 쓰이지 않던 사어에 가까운 말이었으나 기막힌 우연의 일치로 다시 부활시켜버렸다!

조작에는 승부조작이나, 여론조작, 논문조작같은 다양한 종류의 조작이 있지만 이곳에서는 벤포드 법칙으로 가려낼 수 있는 숫자조작을 다루기로 한다. 대표적으로 회계장부를 조작하여 공금을 횡령하거나 논문데이터 수치를 바꿔서 입맛에 맛는 결론을 이끌어내는 등의 조작이 있다. 이러한 조작을 막아내는 데는 수학적인 법칙이 큰 역할을 한다. 그것이 바로,

벤포드 법칙[원본 편집]

파일:/api/File/Real/59053226395221e32dd8bcb3

Benford's law

'First-digit law'

'''''''

벤포드 법칙, 혹은 첫자리 숫자의 법칙이라고도 한다.

틀:안내바

아무튼 뉴컴의 이 발견은 1881년의 일이다. 보통 로그표는 수가 커지는 순서대로 배열이 되어있으므로 계산량이 많아지면 큰 수의 법칙에 따라 모든 수가 고르게 사용될텐데 왜 '1'이 많은 앞부분만 많이 사용되었을까하는 호기심을 품게 된다. 그는 수학자답게 이 비율을 계산해보기로 한다.

그리고 다음과 같은 결론으로 이끈다.

첫 유효숫자 d로 시작하는 수의 비율은, 단순히 1/9가 아니라 [[File:http://latex.codecogs.com/gif.latex?log(1+\frac%7B1%7D%7Bd%7D)%7Clog(1+\frac{1}{d})]]와 같이 나타난다. 이 사실을 발견한 그는 American Journal of Mathematics에 이를 발표했으나 수학적 분석의 부재로 인해 별다른 주목을 받지 못하고 묻히고만다.

그리고 세월이 흘러 1938년, 프랭크 벤포드가 뉴컴이 발견한 법칙을 정확하게 재발견하게 된다. 그리고 그는 이것을 뒷받침하기 위해 수많은 데이터들을 분석해보았다.

그가 분석한 데이터의 양은 실로 어마어마하다. 335개의 강 표면적, 104개의 물리상수, 1800개의 분자량, 수학 수첩의 5000개의 항목, 리더스 다이제스트문제에 있는 308개의 숫자, 342개의 거리주소 등을 모조리 분석하였는데 이 양이 대략 20,229거에 이른다. 그리고 그는 거의 모든 곳에서 이 법칙이 성립함을 확인하였다. 이에 이 법칙은 벤포드법칙으로 알려지게 되었다.

몇 가지 사례[원본 편집]

  • 피보나치 수열

유명한 피보나치 수열도 벤포드 법칙을 따름을 볼 수 있다. 피보나치 수열이란 간단히(?)

F_{n}={\frac {1}{{\sqrt {5}}}}\left\{\left({\frac {1+{\sqrt {5}}}{2}}\right)^{n}-\left({\frac {1-{\sqrt {5}}}{2}}\right)^{n}\right\}={(1+{\sqrt {5}})^{n}-(1-{\sqrt {5}})^{n} \over 2^{n}{\sqrt {5}}}

n번째 숫자를 구하는 피보나치 공식

와 같이 표현하며 더 쉽게 얘기하면 1, 1, 2, 3, 5, 8, 13, 21, 34 ...와 같이 바로 앞 숫자 둘을 더한 것이 다음 숫자가 되는 배열을 말한다. 이것이 흔히 말하는 황금율을 만드는 수열이다. 인접한 두 숫자의 비율은 처음에는 1이지만 뒤로 가면 갈 수록 황금율인 1.618로 수렴하게 된다.

  • 2의 거듭제곱

2의 거듭제곱, 그러니까 21, 22, 23 .... 2100000을 쭉 계산하여 그 첫번째 자리수를 보면 벤포드 법칙이 성립한다. 이는 수학적으로 계산해보았을 때 각 숫자의 첫번째 자리수는 벤포드 법칙과 같이 [[File:http://latex.codecogs.com/gif.latex?log(1+\frac%7B1%7D%7Bd%7D)%7Clog(1+\frac{1}{d})]]가 나오게 되므로 당연히 맞다는 것을 알 수 있다. 2뿐만 아니라 일반적인 숫자 \alpha의 거듭제곱 log\alpha가 무리수이면 벤포드의 법칙을 따르게 된다. 이때 10은 제외하게 된다. 10은 몇 번을 곱해봤자 1과 0밖에 나오지 않으니 당연한 수순.

  • 연이자의 계산

이것은 예를 들어보면 금방 이해가 된다.

은행에 1,000달러를 넣어두고 (말도 안되지만) 연이율이 5.4%라고 하자. 그렇게 되면

파일:/api/File/Real/5905433d395221e32dd8bd10

와 같은 결과가 나온다. 이 표는 카이스트 명강 시리즈 중 첫번째인 『구글 신은 모든 것을 알고 있다.』 117p에 있는 표이며 정하웅교수의 강의에 나온 내용 중 하나이다.

이렇듯 1이 많고 그 다음이 2 그 다음 순서가 3...임을 알 수 있다. 이는 1,000달러라 그럴지도 모른다고 생각할 수도 있지만 2,000달러로 시작해도 마찬가지고 3,000달러로 시작해도 마찬가지로 1이 항상 가장 많이 나오게 된다. 충분히 많은 데이터가 주어지면 벤포드 법칙은 항상 성립한다는 것.

  • 회계 사기 탐지

물론 이것이 어디에서나 성립하므로 실제로 조작을 탐지하는데 쓰이고 있다. Hal Varian이라는 사람이 1972년, 벤포드 법칙을 회계사기를 방지하는데에 사용할 수 있다는 법안을 제출했다. 이에 따라 Mark Nigrini가 이 법칙이 실제 사례에도 쓰일 수 있다는 것을 보여주어 현장에서도 쓰이게 되었다.

한국의 국세청과 미국의 IRS에서 지금도 사용하고 있으니 조작은 매우 어렵다고 볼 수 있다.

계획대로[원본 편집]

파일:/api/File/Real/5905391f395221e32dd8bcda

그렇다면 이러한 의문이 들 수 있다. 만약에 조작을 하더라도 벤포드법칙에 맞게 첫번째 자리 수를 1을 30%에 가깝게 만들고 2를 17.6%에 맞추는 등 1~9까지의 숫자를 벤포드의 법칙에 맞게만 배열하면 걸리지 않고 조작을 할 수 있지 않을까.

하지만 벤포드의 법칙은 생각보다 더 단단해서 이러한 얄팍한 술수에 넘어가지 않는다. 1차 거름망인 벤포드 법칙을 통과했다고 해도 국세청의 프로그램은 장부에 2를 곱해본다. 조작이 되어있지 않은 자연스러운 장부일 경우에는 2를 곱해도 벤포드의 법칙은 성립된다. 하지만 조작을 했다면 이 수치가 흐트러지게 되고 단번에 벤포드 법칙이 성립되지 않는다. 그렇다면 2를 곱한 것까지 벤포드 법칙에 맞도록 교묘하게 조작하면 어떨까?

이런 경우 3을 곱해본다.(...) 통과했다면? 4,5,6....을 계속해서 곱해본다. 자연스러운 수치라면 이 모든 것은 벤포드 법칙에 맞게 된다. 이 모든 숫자에 맞게 조작을 하는 노력보다 차라리 정직하게 하는 것이 나을 정도이다.