초기하분포
초기하분포 (Hypergeometric Distribution) 는 다음의 확률질량함수를 갖습니다.
$$
f(x) = \frac{\binom{M}{x} \binom{N - M}{n - x}}{\binom{N}{n}}
$$
$(\max{(0, n + M - N)} \leq x \leq \min{(n, M)})$
$\binom{M}{x}$는 이항계수 입니다.
모집단 $N$개 중에 원하는것 $M$개가 있고, 이 상태에서 $n$번을 비복원추출했을 때 원하는 것 $k$개가 뽑힐 확률의 분포를 초기하분포라고 합니다.
$x$의 범위가 조금 지저분한 것은 무한히 추출하는 것이 아닌 유한한 이산확률분포이기 때문이기도 합니다.
예를 들어, $50$개의 은화, $50$개의 금화가 있는 주머니에서 $51$개의 동전을 뽑는다면 비둘기집의 원리에 의해 아무리 운 나쁜 사람이라도 금화 $1$개는 얻게 되어있고, 반대로 아무리 운 좋은 사람이라도 금화만 $51$개 얻을 수는 없기 때문입니다.
초기하분포의 평균은 $E[X] = n\frac{M}{N}$, 분산은 $V[X] = n\frac{M}{N} \left( 1- \frac{M}{N} \right) \left( \frac{N - n}{N - 1} \right)$입니다.
초기하분포의 평균과 분산 증명
조금 더 복잡한 경우인 다변수 초기하분포도 존재합니다.