Центральная предельная теорема

Объясняем, почему нормальное распределение возникает буквально повсюду.

Центральная предельная теорема (ЦПТ): сумма (или среднее) большого числа независимых одинаково распределённых величин приближается к нормальному распределению, какой бы ни была форма исходного.

Это, возможно, самый удивительный результат всей теории вероятностей. Возьмите любое распределение — равномерное, перекошенное, дискретное — сложите много его независимых копий, и сумма станет колоколообразной. Именно поэтому рост людей, ошибки измерений и шум распределены примерно нормально: каждое — итог множества мелких независимых вкладов. Подумайте, из чего складывается рост человека: множество генов, питание, гормоны, условия детства — десятки слабых независимых факторов, каждый чуть подталкивает рост вверх или вниз. ЦПТ гарантирует, что их сумма будет колоколообразной, и потому рост в популяции распределён нормально. То же с погрешностью прибора (сумма множества мелких помех), с биржевым шумом, с суммарной ошибкой округлений в длинном вычислении. Везде, где итог — это накопление многих независимых случайных мелочей, мы вправе ожидать нормальное распределение. Эта теорема объясняет, почему именно колокол Гаусса, а не какая-то другая кривая, встречается в природе чаще всего.

Формулировка

Пусть $X_1,\dots,X_n$ независимы, одинаково распределены, с ожиданием $\mu$ и дисперсией $\sigma^2$. Тогда стандартизованная сумма стремится к стандартному нормальному распределению:

$$\frac{X_1+\dots+X_n-n\mu}{\sigma\sqrt{n}}\xrightarrow{n\to\infty} \mathcal{N}(0,1).$$

Замечательно, что форма исходного распределения не важна — нужны лишь конечная дисперсия и независимость. Скорость сходимости зависит от исходной формы, но предел всегда нормальный.

Сумма равномерных становится колоколом

Возьмём самое «неколокольное» распределение — равномерное на $[0;1)$, у которого плоская плотность. Сложим по 12 таких величин и посмотрим на распределение сумм. Построим текстовую гистограмму прямо подсчётом частот по корзинам.

import random
random.seed(31)

def sum12():
    return sum(random.random() for _ in range(12))

N = 200000
bins = [0] * 12        # корзины для сумм от 0 до 12
for _ in range(N):
    s = sum12()
    idx = min(int(s), 11)
    bins[idx] += 1

for i, c in enumerate(bins):
    bar = "#" * (c * 200 // N)
    print(f"[{i:>2}, {i+1:>2}): {bar}")

Вывод:

[ 0,  1): 
[ 1,  2): 
[ 2,  3): #
[ 3,  4): ######
[ 4,  5): ####################
[ 5,  6): #####################################
[ 6,  7): #####################################
[ 7,  8): ####################
[ 8,  9): ######
[ 9, 10): #
[10, 11): 
[11, 12): 

Гистограмма сумм — почти идеальный колокол с центром в $6$, хотя складывали мы плоское равномерное распределение. Это ЦПТ в действии.

Почему именно 12 слагаемых

Сумма 12 равномерных величин на $[0;1)$ имеет ожидание $12\cdot 0{,}5=6$ и дисперсию $12\cdot\frac{1}{12}=1$. Поэтому $\text{сумма}-6$ — это почти стандартная нормальная величина. Этот фокус когда-то использовали как быстрый генератор гауссовых чисел до появления точных методов.

Как работает под капотом

Текстовая гистограмма — это просто счётчики попаданий в корзины: мы делим ось на отрезки единичной ширины и считаем, сколько сумм попало в каждый. Длина строки из символов пропорциональна частоте корзины, так получается «нарисованное» распределение без графических библиотек. ЦПТ проявляется потому, что крайние суммы (близкие к 0 или 12) требуют, чтобы все 12 слагаемых были маленькими или большими одновременно — это крайне маловероятно, а средние значения достигаются множеством комбинаций, отсюда пик в центре.

Частые ошибки

Первая ошибка — думать, что ЦПТ делает нормальной саму исходную величину: нормальной становится сумма или среднее, а не отдельное слагаемое. Вторая — забыть про условие конечной дисперсии: у распределений с «тяжёлыми хвостами» ЦПТ может не работать. Третья — применять ЦПТ при малом числе слагаемых и сильно скошенном исходном распределении: приближение к нормали тогда грубое, нужны десятки или сотни слагаемых.

Итог

  • Сумма многих независимых одинаковых величин приближается к нормальной.
  • Форма исходного распределения не важна — нужна конечная дисперсия.
  • Сумма 12 равномерных $[0;1)$ имеет ожидание 6 и дисперсию 1.
  • ЦПТ объясняет вездесущность нормального распределения в природе.
Проверьте себя
1. Что утверждает центральная предельная теорема?
AЛюбая величина нормальна
BСумма многих независимых одинаковых величин приближается к нормальной
CСреднее всегда равно нулю
DДисперсия растёт линейно
2. Какое условие нужно для ЦПТ?
AИсходное распределение должно быть нормальным
BНезависимость и конечная дисперсия слагаемых
CСлагаемых должно быть ровно 12
DВсе значения положительны
3. Что становится нормальным по ЦПТ?
AКаждое отдельное слагаемое
BСумма или среднее многих слагаемых
CДисперсия
DМинимум слагаемых