Notice
Recent Posts
Recent Comments
Link
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Tags
more
Archives
Today
Total
관리 메뉴

걍블로그

음이항분포와 초기하분포의 평균과 분산에 대하여 본문

수학/통계

음이항분포와 초기하분포의 평균과 분산에 대하여

애쉬용용 2021. 3. 29. 00:07

개인적으로 이해한 내용을 정리한 부분이라서 틀린 내용이 포함될 수 있음을 양해해 주시기 바랍니다.
----------------------------------------------------------------------------------------------------

 

이번에는 음이항분포에 대해서 알아보자. 기본적인 정의에 의해서

로 표현 할 수 있다. 하지만 이때 문제가 있는데….. 우리는 이전에 사용했던 기본 원칙을 적용하기가 힘들다(왜냐면 이전에는 x가 분모 부분과 연관되어 사라졌는데 여기서는 분자와 연관이 되어 있다). 따라서 우리는 기존의 음이항분포의 형태를 조금 수정하여 사용할 것이다. 음이항분포의 수식을 변경하는 과정을 이해하기 위해서 이항분포와 음이항분포가 다루는 대상에 대해서 생각해보자. 우리가 가지는 확률변수 X가 어떤 의미를 가지는가?는 확률에서 중요한 문제이다. 음이항분포의 X는 시행횟수를 의미한다. 그리고 이항분포에서의 X는 성공의 횟수를 의미한다. 그러면 우리는 두 확률분포사이의 관계가 있음을 직관적으로 이해 할 수 있다. (마지막 수행의 결과가 고정되어 있다는 것을 제외하고는 음이항분포와 이항분포는 같은 의미를 가진다.)

 

사실 음이항분포를 검색하면 확률변수의 의미가 사람들마다 다르게 정의가 되어 있다. 어떤 사람은 실패의 횟수를 확률변수로 하기도 하고 어떤 사람은 시행횟수가 확률변수인 사람도 있다. 사실 시행횟수, 성공횟수, 실패 횟수는 서로 밀접한 연관관계가 있다. 이제 위의 음이항분포를 확률변수 X를 실패횟수로 바꿨을 때의 확률에 대해서 생각해보자.

(이때, 당연한 이야기지만 조합의 특징에 따라서 아래와 같이 변경하자.)

따라서 아래와 같이 된다.

이제 여기서부터 평균을 구할 것이다. 수식의 전개방식은 이전과 같이 x를 지워주고 확률의 꼴에 맞춰주는 방식을 사용할 것이다. X를 지워주면

가 되고 이제 확률분포의 모양을 맞춰주면,

확률분포 모양을 맞춰주려면, (r+x-1)을 빼내면 되는데 그러면 x가 밖으로 나오기 때문에 다루기가 어려워진다. 방법이 떠오르지 않기 때문에 수식을 간단히 해서 다시 생각해보자. 일단 (x-1)w로 치환해주자! 그러면

가 된다. 그러면 이제 우리는 r을 변형해서 우리가 원하는 확률분포의 모양으로 맞출 수 있다. Rv-1로 바꿔보자.

이제 여기서는 손 쉽게 모양을 맞춰줄 수 있다

로 드디어 원하는 모양을 얻었다.

이기 때문에 지워주고, v= r+1로 다시 바꿔주자! 따라서 평균은

가 된다!고 생각을 했는데…. 맞는지 모르겠다….. 음이항분포는 다른분포들 보다 다루기가 더 힘든거 같다…...ㅠㅜ

 

평균을 구하는 과정부터 불안정하기 때문에 적률생성함수와 분산은 생략하자….... 좀 더 공부해야겠다……..

 

 

 

 

이제 초기하분포에 대해서 다뤄보자. 초기하분포의 핵심 키워드는 샘플링이다. 이전에 초기하분포의 정의를 설명할 때 서로 다른 그룹에서의 선택에 대한 확률이라는 정의를 했는데, 이때 서로 다른 그룹이란 모집단과 샘플집단의 의미를 가지고 있다. n개의 모집단에서 m개의 샘플을 뽑는 경우의 수가 분모가 된다. 그리고 기존 모집단에서 우리가 원하는 대상이 r개 였다고 가정하자. 샘플링 된 집단에서의 우리가 원하는 대상이 x개 있다면 분자는 r, x 의 조합(r개 중에서 x개를 뽑을 수 있는 경우의 수)과 우리가 원하지 않는 대상 이었던 n-r, m-x 의 조합이 확률이 될 것이다. ,

이 우리가 원하는 확률이 된다. 이제 이에 대한 평균을 생각해보자.

이제 다시 기본적인 아이디어를 적용해보자.

가 된다. 하지만 아직 확률분포 꼴이 아니다. 우리는 x-1r-1의 상황으로 성공(우리가 원하는 대상을 성공이라고 표현하자)의 경우의 수를 바꿨다(성공의 상황이 1개씩 줄어 들었다). 문제를 바꿨는데 문제는 nm이 어떻게 바뀌어야 논리적으로 모순이 없을까? 아마도 실패의 개수가 늘거나 아니면 전체 데이터의 수가 1개씩 줄어야 하는데, 상대적으로 구하기 쉬운 전체 데이터를 줄이는 방법으로 생각하자. 그러면

이 된다.

이기 때문에 전체 평균은

가 된다. 조금 추가로 이항분포의 관점에서 설명하면,

에서

은 이항분포 관점으로 보면 모집단에서 확률(?) 정도로 해석을 할 수 있고, 이를 샘플의 크기가 곱해진 형태로도 해석이 가능하다. (초기하분포도 이항분포와 관련이 있는 분포이다) 우리는 이항분포의 평균이

임을 기억하자.

 

 

이러한 관점으로 분산을 바라보면,

의 기본 꼴로 표현이 가능하다. 여기서 추가 term

을 곱해주다. 여기서 저게 왜 곱해지는지 잘 모르겠다….ㅠㅜ n-1은 자유도랑 관련이 있는 것 같은데 위에 부분은 뭘까?? 일단 종합해서 표현하면,

꼴로 분산을 표현 할 수 있다!

 

분산을 유도하는 과정과 mgf는 아직 이해가 부족해서 더 공부해서 생략한다.

 

'수학 > 통계' 카테고리의 다른 글

연속확률분포의 평균과 분산  (0) 2021.03.29
평균과 적률생성함수의 관계(2)  (0) 2021.03.28
평균과 적률생성함수의 관계(1)  (0) 2021.03.24
적률생성함수  (0) 2021.03.16
확률분포(2)  (0) 2021.03.15