Центральная предельная теорема
Объясняем, почему нормальное распределение возникает буквально повсюду.
Центральная предельная теорема (ЦПТ): сумма (или среднее) большого числа независимых одинаково распределённых величин приближается к нормальному распределению, какой бы ни была форма исходного.
Это, возможно, самый удивительный результат всей теории вероятностей. Возьмите любое распределение — равномерное, перекошенное, дискретное — сложите много его независимых копий, и сумма станет колоколообразной. Именно поэтому рост людей, ошибки измерений и шум распределены примерно нормально: каждое — итог множества мелких независимых вкладов. Подумайте, из чего складывается рост человека: множество генов, питание, гормоны, условия детства — десятки слабых независимых факторов, каждый чуть подталкивает рост вверх или вниз. ЦПТ гарантирует, что их сумма будет колоколообразной, и потому рост в популяции распределён нормально. То же с погрешностью прибора (сумма множества мелких помех), с биржевым шумом, с суммарной ошибкой округлений в длинном вычислении. Везде, где итог — это накопление многих независимых случайных мелочей, мы вправе ожидать нормальное распределение. Эта теорема объясняет, почему именно колокол Гаусса, а не какая-то другая кривая, встречается в природе чаще всего.
Формулировка
Пусть $X_1,\dots,X_n$ независимы, одинаково распределены, с ожиданием $\mu$ и дисперсией $\sigma^2$. Тогда стандартизованная сумма стремится к стандартному нормальному распределению:
$$\frac{X_1+\dots+X_n-n\mu}{\sigma\sqrt{n}}\xrightarrow{n\to\infty} \mathcal{N}(0,1).$$
Замечательно, что форма исходного распределения не важна — нужны лишь конечная дисперсия и независимость. Скорость сходимости зависит от исходной формы, но предел всегда нормальный.
Сумма равномерных становится колоколом
Возьмём самое «неколокольное» распределение — равномерное на $[0;1)$, у которого плоская плотность. Сложим по 12 таких величин и посмотрим на распределение сумм. Построим текстовую гистограмму прямо подсчётом частот по корзинам.
import random
random.seed(31)
def sum12():
return sum(random.random() for _ in range(12))
N = 200000
bins = [0] * 12 # корзины для сумм от 0 до 12
for _ in range(N):
s = sum12()
idx = min(int(s), 11)
bins[idx] += 1
for i, c in enumerate(bins):
bar = "#" * (c * 200 // N)
print(f"[{i:>2}, {i+1:>2}): {bar}")Вывод:
[ 0, 1): [ 1, 2): [ 2, 3): # [ 3, 4): ###### [ 4, 5): #################### [ 5, 6): ##################################### [ 6, 7): ##################################### [ 7, 8): #################### [ 8, 9): ###### [ 9, 10): # [10, 11): [11, 12):
Гистограмма сумм — почти идеальный колокол с центром в $6$, хотя складывали мы плоское равномерное распределение. Это ЦПТ в действии.
Почему именно 12 слагаемых
Сумма 12 равномерных величин на $[0;1)$ имеет ожидание $12\cdot 0{,}5=6$ и дисперсию $12\cdot\frac{1}{12}=1$. Поэтому $\text{сумма}-6$ — это почти стандартная нормальная величина. Этот фокус когда-то использовали как быстрый генератор гауссовых чисел до появления точных методов.
Как работает под капотом
Текстовая гистограмма — это просто счётчики попаданий в корзины: мы делим ось на отрезки единичной ширины и считаем, сколько сумм попало в каждый. Длина строки из символов пропорциональна частоте корзины, так получается «нарисованное» распределение без графических библиотек. ЦПТ проявляется потому, что крайние суммы (близкие к 0 или 12) требуют, чтобы все 12 слагаемых были маленькими или большими одновременно — это крайне маловероятно, а средние значения достигаются множеством комбинаций, отсюда пик в центре.
Частые ошибки
Первая ошибка — думать, что ЦПТ делает нормальной саму исходную величину: нормальной становится сумма или среднее, а не отдельное слагаемое. Вторая — забыть про условие конечной дисперсии: у распределений с «тяжёлыми хвостами» ЦПТ может не работать. Третья — применять ЦПТ при малом числе слагаемых и сильно скошенном исходном распределении: приближение к нормали тогда грубое, нужны десятки или сотни слагаемых.
Итог
- Сумма многих независимых одинаковых величин приближается к нормальной.
- Форма исходного распределения не важна — нужна конечная дисперсия.
- Сумма 12 равномерных $[0;1)$ имеет ожидание 6 и дисперсию 1.
- ЦПТ объясняет вездесущность нормального распределения в природе.