Геометрическое распределение и Пуассон

Два распределения времени: сколько ждать первого успеха и сколько редких событий случится за интервал.

Геометрическое распределение описывает номер испытания, на котором впервые случился успех; в среднем ждать приходится $1/p$ попыток.

Биномиальное считало успехи при фиксированном числе попыток. Но часто вопрос обратный: «сколько попыток до первого успеха?» или «сколько редких событий произойдёт за час?». На них отвечают геометрическое распределение и распределение Пуассона — два столпа теории очередей и надёжности. Эти два распределения связаны общей темой — временем и редкостью. Геометрическое отвечает на вопрос «как долго ждать», считая попытки до первого успеха: сколько резюме разослать до первого приглашения, сколько лотерейных билетов купить до выигрыша. Пуассон отвечает на вопрос «сколько случится», считая редкие события на фиксированном интервале: сколько клиентов придёт в магазин за час, сколько метеоритов упадёт за год, сколько опечаток окажется на странице. Оба распределения предполагают, что отдельные события независимы и происходят «без памяти», и именно это делает их такими универсальными в задачах планирования, обслуживания и оценки надёжности техники.

Геометрическое распределение

Повторяем независимые опыты с вероятностью успеха $p$, пока не получим первый успех. Вероятность, что он придёт ровно на $k$-й попытке (перед ней $k-1$ неудач):

$$P(X=k)=(1-p)^{k-1}p.$$

Среднее число попыток до первого успеха равно

$$\mathbb{E}[X]=\frac{1}{p}.$$

Логично: если успех случается с вероятностью $\frac{1}{6}$ (выпадение шестёрки), ждать его в среднем 6 бросков. Проверим.

import random
random.seed(15)

def rolls_until_six():
    count = 0
    while True:
        count += 1
        if random.randint(1, 6) == 6:
            return count

N = 500000
avg = sum(rolls_until_six() for _ in range(N)) / N
print("Среднее число бросков:", round(avg, 4))
print("Теория 1/p = 6:      ", 6)

Вывод:

Среднее число бросков: 5.9966
Теория 1/p = 6:       6

Свойство отсутствия памяти

Геометрическое распределение «не помнит» прошлого: если успеха ещё не было, ожидаемое число оставшихся попыток снова равно $1/p$, сколько бы неудач ни случилось. Монета не «накапливает долг» — каждая попытка стартует с чистого листа.

Распределение Пуассона

Когда событий очень много, а каждое маловероятно, число событий за интервал описывает распределение Пуассона с параметром $\lambda$ (среднее число событий):

$$P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}.$$

Его ожидание и дисперсия равны одному и тому же числу: $\mathbb{E}[X]=\mathrm{Var}(X)=\lambda$. Пуассон — предел биномиального при $n\to\infty$, $p\to 0$, $np\to\lambda$. Так описывают звонки в колл-центр, опечатки на странице, распады атомов. Проверим: возьмём $n=1000$ редких событий с $p=0{,}003$, то есть $\lambda=3$, и сравним долю $X=2$ с формулой Пуассона.

import random, math
random.seed(16)

n, p = 1000, 0.003
lam = n * p
N = 400000
counts = [sum(1 for _ in range(n) if random.random() < p) for _ in range(N)]
mean = sum(counts) / N
p2 = counts.count(2) / N
theory2 = lam**2 * math.exp(-lam) / math.factorial(2)
print("Среднее:", round(mean, 4), "| lambda =", lam)
print("P(X=2):", round(p2, 4), "| Пуассон =", round(theory2, 4))

Вывод:

Среднее: 2.9995 | lambda = 3.0
P(X=2): 0.2237 | Пуассон = 0.2240

И среднее число событий, и вероятность ровно двух событий совпали с пуассоновской формулой — биномиальное с редкими событиями действительно переходит в Пуассон.

Как работает под капотом

Геометрическая симуляция — это цикл while, который крутится до первого успеха и возвращает счётчик; усреднение длин даёт $1/p$. Пуассоновская симуляция строит редкие события как биномиальные с большим $n$ и крошечным $p$ — именно тот предельный переход, из которого Пуассон и выводится. Поэтому доля исходов с двумя событиями стремится к $\frac{\lambda^2 e^{-\lambda}}{2!}$, подтверждая связь двух распределений численно.

Частые ошибки

Первая ошибка — путать «номер первого успеха» (счёт с 1) и «число неудач до успеха» (счёт с 0): это два варианта геометрического распределения с ожиданиями $1/p$ и $(1-p)/p$. Вторая — применять Пуассон, когда события не редки или зависимы (например, при большой $p$ лучше биномиальное). Третья — забыть, что у Пуассона ожидание и дисперсия равны $\lambda$: если в данных дисперсия сильно больше среднего, модель Пуассона не подходит.

Итог

Геометрическое: число попыток до первого успеха, $\mathbb{E}[X]=1/p$.
У него нет памяти: прошлые неудачи не приближают успех.
Пуассон описывает число редких событий за интервал, $\mathbb{E}[X]=\mathrm{Var}(X)=\lambda$.
Пуассон — предел биномиального при большом $n$ и малом $p$.