시리즈:수포자도 쉽게 알 수 있는 수학/확률과 통계

문서의 내용이 너무 쉬워서 머리속에 쏙쏙 들어옵니다.

이 문서에는 독자적으로 연구한 내용이 들어갑니다. 다른 사람의 의견을 존중하면서 무례하지 않도록 작성해 주시고, 의견 충돌 시 토론 문서에서 토론해 주세요.
수포자도 쉽게 알 수 있는 수학
집합과 명제 수의 체계와 수의 성질 문자와 식 및 방정식과 부등식 함수 수열
미분과 적분 확률과 통계 평면기하학과 공간기하학 해석기하학

경우의 수[편집 | 원본 편집]

용어 정리[편집 | 원본 편집]

  • 사건

합의 법칙[편집 | 원본 편집]

곱의 법칙[편집 | 원본 편집]

순열[편집 | 원본 편집]

서로 다른 N개의 대상중 일부를 선택해 순서대로 나열한 것을 순열이라고 한다.

0~9의 숫자가 하나씩 있을 때, 이 중에서 5개를 선택해 만드는 순열의 개수를 구해보자.

  • 순열의 첫번째 자리에는 0~9 중에서 아무거나 선택할 수 있으므로 열 가지의 경우의 수가 존재한다.
  • 두번째 자리에는 이미 첫 번째 자리에 하나를 썼으므로 10 - 1 = 아홉 가지의 경우의 수가 존재한다.
  • 마찬가지로, 세 번째, 네 번째, 다섯 번째 자리에는 각각 여덟, 일곱, 여섯 가지의 경우의 수가 존재한다.

숫자를 선택하는 순서는 첫 번째부터 다섯 번째까지 순서대로이므로 가능한 수열의 갯수는 [math]\displaystyle{ 10 \times 9 \times 8 \times 7 \times 6 = 30240 }[/math]이다.

위의 경우를 일반화해, N개의 서로 다른 대상에서 R개를 선택해서 만들 수 있는 순열의 개수를 구한다.

  • 첫번째 자리에는 N개중에서 아무거나 선택할 수 있으므로 N가지의 경우의 수가 존재한다.
  • 두번째 자리에는 이미 첫번째 자리에 하나를 썼으므로 (N - 1)가지의 경우의 수가 존재한다.
  • 마찬가지로, 세번째, 네번째, 다섯번째, ... , R번째 자리 에는 각각 (N - 2), (N - 3), (N - 4), ... , (N - R + 1)가지의 경우의 수가 존재한다.

숫자를 선택하는 순서는 첫번째부터 R번째까지 순서대로이므로 가능한 순열의 갯수는 [math]\displaystyle{ N \times (N-1) \times (N-2) \times (N-3) \times (N-4) \times \cdots \times (N-R+1) }[/math]이다. 이것을 편리하게 표현하기 위해 다음을 도입한다.

  • 팩토리얼: 자연수 N에 대해, 1부터 N까지의 자연수를 모두 곱한 것을 [math]\displaystyle{ N! }[/math]라고 표기한다. [math]\displaystyle{ 0!=1 }[/math]로 약속한다.

팩토리얼을 이용해 순열의 개수를 다시 표현하면 [math]\displaystyle{ \frac{N!}{(N-R)!} }[/math]이다. 이것을 순열의 영어단어(Permutation)의 앞글자를 따서 [math]\displaystyle{ _N P _R }[/math]라고 쓴다.

순열은 다음과 같은 성질이 있다.

  • [math]\displaystyle{ _N P _0=1 }[/math]
  • [math]\displaystyle{ _N P _1=N }[/math]
  • [math]\displaystyle{ _N P _N=N! }[/math]
중복 순열[편집 | 원본 편집]
원순열[편집 | 원본 편집]

Rotation Permutation. 모든 대상이 공평한 조건을 갖는 순열을 말한다. 예시를 들 때 흔히 원탁에 사람들을 앉혀놓는 것을 사용하는데 이것이 원순열의 특징을 설명하는데 아주 좋은 예시이다.

예를 들어 둥근 탁자에 4명을 앉히자. 북쪽에 북이, 동쪽에 동이, 남쪽에 남이, 서쪽에 서이를 앉혔다. 그리고 자리를 시계방향으로 옮겨 북이가 동쪽, 동이가 남쪽, 남이가 서쪽, 서이가 북쪽으로 가서 앉았다. 하지만 이는 결국 앉아있는 순서가 같다는 말이다. 바라보는 시선을 90도 돌리면 구성이 똑같기 때문이다.

일반 순열(퍼뮤테이션)을 원순열(로테이션 퍼뮤테이션)로 치환하는 경우, 간단하게 표본 만큼 다시 나눠주면 된다. 즉, N!/N이다. 팩토리얼(!)의 정의는 1부터 N까지의 곱이므로 마지막 N이 나눠지면 N-1까지의 곱이 된다. 따라서 원순열상 경우의 수는 (N-1)!이라 말할 수 있다.

그리고 원순열이 아닌 다른 도형의 탁자에 앉는 것도 원순열을 통해 다룰 수 있다. 탁자째로 돌렸을 때 겹치면 뺀다는 규칙이 원순열과 동일하게 적용되기 때문이다. 다만 겹치지 않는 경우는 대부분 원순열보다 많기 때문에 이것들을 잘 세어줘야 한다.

염주순열[편집 | 원본 편집]

조합[편집 | 원본 편집]

Combination (콤비네이션). 흔히 약자로 C라 쓴다. 순열에서 파생한 개념으로 이미 순열에 대한 개념은 위에서 알아봤으니 추가로 이해할 부분은 아래 정도만 이해해도 충분하다.

  • A세트 : 양념치킨+후라이드치킨 = 2마리 19,000원!
  • B세트 : 후라이드치킨+양념치킨 = 2마리 19,900원!

뭐지 이 병...

위에서 A세트와 B세트는 차이가 없다는 걸 바로 이해할 수 있다. 이를 좀 있어보이게 표기하면 아래와 같다.

  • A = {양념치킨, 후라이드치킨}
  • B = {후라이드치킨, 양념치킨}

A집합과 B집합은 구성이 같으므로 같은 순열이다라고 정의하는 것이 바로 조합의 기초이다. 실제로 아래 문제를 생각해보자.

  • 어느날 리브렌은 야식으로 치킨을 두 마리 먹으려 합니다. 아래 메뉴에서 두 마리를 고를 수 있는 경우를 모두 세어보세요.
    • U = {후라이드, 양념치킨, 마닭, 파닭, 구운치킨, 옛날치킨, 신호등치킨(?!)}

U집합에는 모두 일곱 가지가 들어 있고 이 중에서 두 가지를 추출하므로

  • 7C2 = 7!/5!

가 된다. 그런데 여기서 두 가지가 서로 위치만 바꾼 경우가 생길 수 있으니, 2!만큼의 값을 더 나눠줘야 한다. 따라서

  • 7C2 = 7!/(5!*2!)

이 되는 것이다. 이게 조합이다.

중복 조합[편집 | 원본 편집]

Combination with Repetition. 중복해서 추출하는 것을 허용하는 순열로 흔히 H를 약자로 사용한다. 중복 순열의 파생으로 볼 수 있다. 이 말은 즉슨,... 위 치킨 얘기를 연장해서 설명해보자.

  • A세트 : 양념치킨+후라이드치킨 = 2마리 19,000원!
  • B세트 : 후라이드치킨+양념치킨 = 2마리 19,900원!
  • C세트 : 양념치킨+양념치킨 = 2마리 20,900원!

A와 B세트는 사실상 같은 메뉴이지만 C세트는 앞서 두 세트와 개념이 다르다. 양념치킨 덕들을 위한 메뉴이다. 이런 경우까지 고려하는 것이 중복조합이다. 또한 아래와 같은 경우도 생각해 볼 수 있다.

리브렌이 치킨 두 마리를 시키려 하는데 갑자기 리브라가 리브렌 집에 놀러왔다. 리브렌이 혼자 치킨을 먹으려 했던 걸 알아챈 리브라가 '나도 닭 한 마리 시켜줘!'의 스킬을 시전하였다. 이때 리브렌이 주문 할 수 있는 모든 경우는 몇 종?

간단한 이해를 위해 위 문제에서 주문 가능한 치킨은 (후라이드, 양념, 마닭, 파닭) 4종으로 제한한 다음 일일이 나열해보자.

  • 리브렌과 리브라가 모두 다른 메뉴로 먹을 경우 [4C3 = 4!/(3!1!) = 4]
    • 후양마, 후양파, 후마파, 양마파
  • 리브렌과 리브라가 추가 한 마리를 같은 메뉴로 먹을 경우 ... 16종
    • 후후후, 양양양, 마마마, 파파파 (전메뉴 통일) = 4종
    • 후후양, 후후마, 후후파 (후/양/마/파 자리바꿈하여 총 4개 묶음) = 12종

위처럼 두 번째 경우가 새로 생기는 바람에 총 20종가 되었음을 알 수 있다. 이를 공식화한 것이 아래이다. 공식 유도를 위한 자세한 설명은 일단 생략한다.

  • nHr = (n+r-1)C(r)
    • 4H3 = (4+3-1) C (3) = 6C3 = 6!/3!3! = 6*5*4 / 3*2 = 20
이항정리[편집 | 원본 편집]

우리는 지금까지 곱셈공식으로 [math]\displaystyle{ \left(a \pm b \right)^2 }[/math][math]\displaystyle{ \left(a \pm b \right)^3 }[/math]을 배웠다. 그런데, 이 경우에는 네제곱 이상을 계산하기 어렵다. 그렇다고 필요할 때마다 곱셈공식을 추가하는 노다가를 할 수는 없는 일. 이를 위해 이항정리라는 것이 나왔다.(증명은 추가바람)

이항정리의 공식은 다음과 같다. [math]\displaystyle{ \left(a+b \right)^n=\sum_{k=0}^N nCk \left(a \right)^\left(n-k \right) \left(b \right)^k }[/math]

여기서 왼쪽에서 오른쪽으로 바꾸는데만 집착하는 사람이 꽤 많은데, 오른쪽에서 왼쪽으로 바꾸는 연습도 해두는게 좋다. 통계에서 쏠쏠이 써먹기 때문이다.

확률[편집 | 원본 편집]

  • 확률에서 가장 큰 오해는, 확률 자체가 우리가 관측한 값으로 계산을 하는 것이지, 우리가 관측한 값을 토대로 예측을 하는 것이 아니다. 이 오해를 풀지 못하면 아래 통계에서도 엄청나게 고생을 한다. 이거 하나만 이해해도 확률에서 배울 내용의 50%는 배운거라고 할 수 있다.
    • 가장 대표적인 예로, 주사위에서 숫자 1이 나올 확률은 6분의 1이다. 하지만 주사위 10번을 던졌는데 그중 1이 한번도 안나왔다고 해서 다음번에 숫자 1이 나올 확률이 급상승 하는 것은 절대 아니다!! 사기도박을 의심해야한다. 오함마 가져와야지
    • 그러면 왜 1이 안나왔는지에 대한 분석을 해야하는데, 그걸 분석하는 것이 바로 통계다이게 정확한 통계의 정의는 아니다. 물론 확률과 통계가 수학에 기초를 둔 만큼, 이 증명과정을 역으로 써서 예측을 할 수는 있으나, 그게 꼭 맞는다는 보장을 하려면 실제 결과가 나오고 그 관측값을 토대로 증명을 해야하기 때문에 절대 쉬운일이 아니다.그게 가능하면 모두다 로또 1등이고 주식 대박이다

용어 설명[편집 | 원본 편집]

리브레 참고서: 우리 모두의 참고서

리브레 참고서가 문학을 뛰어넘어서 수학에도 상륙!

표본 공간[편집 | 원본 편집]

표본 공간[1]이란, 여러 가지 경우의 수를 통해 나올 수 있는 것들의 집합입니다. 예를 들자면,

  1. 주사위 1개의 표본 공간은 {1, 2, 3, 4, 5, 6}이고,
  2. 동전 1개의 표본 공간은 {앞(Head), 뒤(Tail)}이며,
  3. 동전 2개의 표본 공간은 {(H,T),(H,H),(T,H),(T,T)}라고 할 수 있습니다.

표본 공간에서 중요한 것은 바로 이것 입니다. 그림을 보시죠, 이 주머니에는 3개의 하얀공과 1개의 검은 공, 총 4개의 공이 들어 있습니다. 그럼 이 주머니의 표본 공간은 무엇일까요?

간단한 주머니 그림

보통, 확률을 기억하지 못하시는 분들은 이렇게 답할 지도 모릅니다. 하얀공은 3개 지만 모두 같은 모양+색깔까지 같으므로 1개로 취급해야 한다. 따라서 위 주머니에서 나올 수 있는 표본 공간은 {검정공, 하얀공}이다!

하지만, 아쉽게도...땡!

왜 그러냐구요? 표본 공간에서는 모양이 똑같더라도 반드시 모두 세야 합니다. 간단히 생각하자면 저 하얀공들에 번호가 적혀 있다고 보시면 되겠습니다. 즉, {1번 하얀공, 2번 하얀공, 3번 하얀공, 검은공}이라고 봐야 된다는 것이지요! 뭔가 설명히 애매한데?


그럼 심화문제로 넘어가보죠.

그림은 위의 그림과 같습니다. 다만 이번에는 4개의 공 중에서 2개를 뽑아야 합니다. 그럼 이 주머니의 표본 공간은 무엇일까요?


답은 아래와 같습니다.

  1. 문제에서 4개의 공 중에서 2개를 뽑아야 한다고 했으므로, [math]\displaystyle{ _{4}\mathrm{C}_{2} }[/math]입니다.
  2. 따라서 이 주머니의 표본 공간은 {(하얀공1, 하얀공2),(하얀공1, 하얀공3),(하얀공2, 하얀공3),(하얀공1, 검은공),(하얀공2, 검은공),(하얀공3, 검은공)}이 된답니다! 숫자가 적혀져 있는 그림을 추가하려고 했더니 문서가 망가지네요 ㅠ

어때요, 표본 공간, 이해가 되시나요? ‘’

사건[편집 | 원본 편집]

사건의 정의는 바로, 표본공간의 부분집합이랍니다. 정말로 한 방에 이해가 되는 예를 보여드리죠,

집합 {1, 2, 3, 4, 5, 6}의 부분집합을 구해보세요!


그럼...

  1. 원소가 0개인 집합 [math]\displaystyle{ _{6}\mathrm{C}_{0} = 1 }[/math]
  2. 원소가 1개인 집합 [math]\displaystyle{ _{6}\mathrm{C}_{1} = 6 }[/math]
  3. 원소가 2개인 집합 [math]\displaystyle{ _{6}\mathrm{C}_{2} = {6×5\over2×1}=15 }[/math]
  4. 원소가 3개인 집합 [math]\displaystyle{ _{6}\mathrm{C}_{3} = {6×5×4\over3×2×1}=20 }[/math]
  5. 원소가 4개인 집합 [math]\displaystyle{ _{6}\mathrm{C}_{4} = 15 }[/math]
  6. 원소가 5개인 집합 [math]\displaystyle{ _{6}\mathrm{C}_{5} = 6 }[/math]
  7. 원소가 6개인 집합 [math]\displaystyle{ _{6}\mathrm{C}_{6} = 1 }[/math]

로 총 64개가 나오죠?

그럼 되었습니다. 여기서, 집합{1, 2, 3, 4, 5, 6}을 표본 공간{1, 2, 3, 4, 5, 6}으로 바꾸고, 부분집합을 사건이라고 바꾸면 됩니다. 어때요? 간단하지 않나요?

하지만 우리는 여기서 더 알아야 할 것이 있습니다. 바로, 근원사건과 홀수사건, 소수사건, 짝수사건, 전사건, 공사건이 바로 그것인데요. 하나도 어렵지 않습니다. 바로 들어가죠!

  • 근원사건
원소가 1개인 사건(부분집합)
  • 전사건
말그대로, 전체 집합(표본공간) 그 자체 입니다. {1, 2, 3, 4, 5, 6}을 의미 합니다.
  • 공사건
공집합입니다. 사건이 일어나지 않는다는 의미로 해석할 수 있습니다.어째 설명이 점점 줄어드네요. 작성자님

수학적 확률과 통계적 확률[편집 | 원본 편집]

여러 가지 사건[편집 | 원본 편집]

확률의 기본 성질[편집 | 원본 편집]

확률의 덧셈정리[편집 | 원본 편집]

여사건의 확률[편집 | 원본 편집]

조건부 확률[편집 | 원본 편집]

확률의 곱셈정리[편집 | 원본 편집]

독립사건과 종속사건[편집 | 원본 편집]

독립시행[편집 | 원본 편집]

통계[편집 | 원본 편집]

  • 대학생 과정의 통계에서 가장 중요한 건 내가 어떤 학문의 통계를 하느냐이다. 통계식을 최종적으로 정리하는 과정에서 사용되는 상수들은 각 학문의 영역마다 다른데, 당장 생물학만 하더라도 생물 개체를 실험하는 경우는 생물실험통계를, 생화학적인 부분을 입증할 때에는 화학실험통계를, 생태계를 조사할 때에는 사회통계를 끌어다쓴다.그래서 생물학 관련과들은 수학공부는 좀 덜해도 통계공부하기 지옥이다.
  • 바꿔 말하자면, 고등학생과정에서 배우는 통계는 좀 잡소리가 많지만 이런 통계의 공통분모만을 간단하게 배우는 것이다. 실제 계산을 하는 것보다는 외우는 게 많으며, PK/SKY급 학교가 아닌이상 대부분 통계 첫 시간에 이런 내용을 다시 가르치는 것이 일반적이기 때문에, 고등학교 통계를 모른다고 해서 학사 스케줄이 꼬일정도의 문제가 되진 않는다.물론 그걸 하루 수업으로 압축했다는 사실은 꼭 기억해야한다. 일주일안에 따라잡아야한다.
  • 이공계열 대학생 과정에서의 통계만 이야기를 하자면, 실제의 통계 계산은 대부분 프로그램에 맏긴다. 하지만 처음에는 대부분 통계 용어의 정의를 하는데, 이 정의는 따로 답이 없다. 그냥 이런게 있다고 외우는 수밖에 없다. 사실 이걸 증명하는 것까지 하면 좋지만, 대부분의 통계프로그램은 그 통계증명이 된 상황이다. 우리가 그걸 실제로 할 필요는 없다. 하지만 그 용어의 정의를 인식하지 못하면 통계프로그램을 쓸 수조차 없다.
  • 고등학교 다닌지 오래돼서 정확한지는 모르겠지만고등학교 통계에서 결국 가르치는 건 이런 통계학에서 써먹는 기초적인 정의를 가르치는 것이다. 실제로 계산은 큰 의미가 없으니 일단 단어의 정의정도는 꼭 외워두자. 여유가 되면 그 평균이나 표준편차의 계산정도는 외워두는 것이 매우 큰 도움이 된다.
  • 가장 중요한 내용. 통계는 주관적인 학문이다. 보통 수학의 범주안에 넣지만, 실제로는 어떤 공식을 적용하여도 결과가 나오고, 그게 맞는지 틀리는지는 또 통계로 증명을 해야하는데 그게 또 완성되기 매우 쉽다. 공식을 잘못 넣으면 계산 자체가 안되고, 증명도 완성 안 되는 다른 수학과는 다르게 통계는 뭘 넣어도 결과가 나오고 증명이 되기 때문에 어떤식으로 접근하여 분석의 신뢰도를 적당하게 올리느냐(이건 통계에서 일반적으로 쓰이는 신뢰범위와는 다르다)가 가장 중요하다. 실제로 가장 많이 일어나는 것이, 임의로 분석의 신뢰도를 내려서 논문을 쓰는 경우가 많고, 이 경우 아무리 좋은 실험을 했다 한들 믿을수 없는 실험이 된다. 이상적인 통계환경에서는 이 분석의 신뢰도가 정해져 있지만, 현실은 그렇지 않기 때문에 어느 정도까지 신뢰도를 잡을 것이냐가 통계의 핵심이 된다. 이걸 이해한다면 통계가 들어가는 논문을 쓸 자격이 있다는 말이 된다.(...)

확률분포[편집 | 원본 편집]

이산확률분포[편집 | 원본 편집]

이항분포[편집 | 원본 편집]

연속확률분포[편집 | 원본 편집]

정규분포[편집 | 원본 편집]

Normal Distribution (正規分布). 대수의 법칙을 설명하는 근본이 되는 분포로 자연적인 확률을 가진 모집단에서 일어날 수 있는 사건의 확률 분포도를 함수그래프로 정의한 것이다. 쉽게 말하자면 당신이 주사위를 수십번이건 수백번이건 던졌을 때 1이 평균 0/6~6/6 확률로 나올 사건확률을 모조리 확률로서 정의해준 그래프라 보면 된다. 이게 무슨 소리야! 좀 더 알기 쉬운 예로는 수능 표준점수가 있는데(!) 주최측에서 어떠한 난이도의 문제를 출제해도 실력이 자연적으로 분포된 학생들이라면 정규분포에 따라 석차 줄세우기가 일어날 것이라 가정하고 만든 점수가 바로 표준점수이다. 그러니까 시험 난이도 조정하기 빡세니 아예 난이도에 상관없는 점수체계를 만든 셈이다(...)

여튼간 한 줄로 정리하면 지극히 정상적인 자연적으로 일어날 확률의 분포라 할 수 있다.

워낙에 활용도가 높고 강력한 확률분포라 이것만 깨우쳐도 확률분포의 절반은 먹고 들어갈 수 있다. 특히 고등학교 과정이라면 거의 100%에 가까울 정도이다. 그 만능 함수식은 다음과 같다. [math]\displaystyle{ f(x) = \frac{1}{\sigma \sqrt{2\pi}}\exp \left[{-\frac{(x-m)^{2}}{2\sigma^2}} \right] }[/math] (m = 모평균, σ = 모표준편차)

x=min(최소값)에서 m까지의 적분값은 전체 x에 대한 적분값의 50%이고, 함수 자체는 해가 나오지 않는 함수이므로 범위는 양끝 무한대이다. 즉, 적분한 값이 확률을 나타내는 것이니 필요에 따라 위 함수를 적분해서 구하면 되겠지만... 정말로 일일이 그랬다간 헬게이트가 열리므로 학자들이 후대를 위해 열심히 값을 구해다가 표를 만들어 정리한 것이 바로 표준정규분포표이다. 이 문단 자체가 참 말이 많지만, 사실 저거 표만 이용할 줄 알면 땡이다. 레알.

덧붙이면 σ(표준편차)는 평균에서 얼마나 동떨어져있나를 나타내는 값을 말한다. 표준편차를 제곱하면 분산값(σ^2)이 나오는데 분산은 평균과 표본간 차의 제곱을 모두 더한후 전체 표본 수로 나눈 값[σ^2(분산)=(각 표본들 - 평균)^2/전체표본수]을 가리킨다. 때문에, 분산이 0이면 모든 분포가 평균과 똑같은 것이고[2], 이론상 분산값은 무한대도 나올 수 있지만 일반적으로 평균값의 제곱보다 큰 값이 나오면 자료가 너무 퍼진 것이라 간주한다. 한때 경영학에서 유행하던 식스시그마(Six Sigma = 심각하게 낮은 확률. P(m±6σ).)라는 용어의 어원이다.

한때 이 정규분포가 바로 자연적 질서라는 믿음을 주던 때도 있었지만 (정규분포에서 추출된 분포 또한 정규분포에 따른다는 이론) 추출된 표본에 따라 다르게 일어나는 일도 있어서 카이제곱(Χ^2)분포, t분포, F분포 등이 파생되었다.

통계적 추정[편집 | 원본 편집]

통계의 검정[편집 | 원본 편집]

회귀분석[편집 | 원본 편집]

시계열[편집 | 원본 편집]

각주

  1. Sample Space, S로 표기합니다.
  2. (표본-평균)값들은 제곱함으로 0혹은 양수 값을 가지는데, 0인 경우 플러스값과 마이너스값이 합쳐져서 상쇄되는 경우가 없다. 따라서, 분산이 0이 되는 상황은 각 표본들이 평균과 같은 경우 뿐이다. 이것이 굳이 제곱을 사용하는 이유.