Дисперсия и стандартное отклонение

Учимся измерять не центр, а разброс случайной величины вокруг ожидания.

Дисперсия $\mathrm{Var}(X)$ — математическое ожидание квадрата отклонения величины от её среднего; она измеряет разброс.

Две игры могут иметь одинаковый средний выигрыш, но одна — спокойная, другая — с дикими взлётами и падениями. Ожидание этой разницы не видит. Её улавливает дисперсия — мера того, насколько сильно значения разбросаны вокруг центра. Без неё нельзя оценить риск, погрешность измерения или ширину распределения. Представьте два вклада с одинаковой средней доходностью $10\%$: первый стабильно приносит около десяти процентов, второй скачет от минус тридцати до плюс пятидесяти. Ожидание у них одинаковое, но риск — несопоставимый, и именно дисперсия (а точнее, её корень — стандартное отклонение) этот риск измеряет. В физике та же величина описывает погрешность прибора, в контроле качества — стабильность производства, в статистике — надёжность оценки. Везде, где важно не только «сколько в среднем», но и «насколько разбросано», на сцену выходит дисперсия.

Определение

Дисперсия — это средний квадрат отклонения от ожидания:

$$\mathrm{Var}(X)=\mathbb{E}\bigl[(X-\mathbb{E}[X])^2\bigr].$$

Квадрат нужен, чтобы отклонения вверх и вниз не сокращались и чтобы крупные отклонения весили сильнее. Если бы мы усредняли просто отклонения $X-\mathbb{E}[X]$ без квадрата, результат всегда был бы нулём: по определению ожидания положительные и отрицательные отклонения уравновешивают друг друга. Можно было бы брать модуль отклонения, и такая мера (среднее абсолютное отклонение) тоже используется, но квадрат удобнее математически: он гладкий, легко дифференцируется и красиво раскладывается на части для сумм независимых величин. Именно поэтому дисперсия, а не среднее абсолютное отклонение, стала стандартной мерой разброса во всей теории вероятностей и статистике. На практике удобнее эквивалентная формула:

$$\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2.$$

Для кубика мы уже знаем $\mathbb{E}[X]=3{,}5$ и $\mathbb{E}[X^2]=\frac{91}{6}\approx 15{,}1667$, поэтому $\mathrm{Var}(X)=15{,}1667-3{,}5^2=15{,}1667-12{,}25\approx 2{,}9167$.

Стандартное отклонение

Дисперсия измеряется в «квадратных» единицах, что неудобно. Поэтому берут корень — стандартное отклонение, возвращающее исходный масштаб:

$$\sigma=\sqrt{\mathrm{Var}(X)}.$$

Для кубика $\sigma=\sqrt{2{,}9167}\approx 1{,}708$. Это «типичное» расстояние выпавшего числа от среднего $3{,}5$. Проверим симуляцией, используя модуль statistics.

import random, statistics
random.seed(10)

n = 1000000
sample = [random.randint(1, 6) for _ in range(n)]
print("Дисперсия (симуляция):", round(statistics.pvariance(sample), 4))
print("Теория 35/12:         ", round(35/12, 4))
print("Ст. отклонение:       ", round(statistics.pstdev(sample), 4))

Вывод:

Дисперсия (симуляция): 2.9170
Теория 35/12:          2.9167
Ст. отклонение:        1.7079

Функция pvariance считает дисперсию по всей «генеральной» выборке; результат сошёлся к точному $\frac{35}{12}$.

Дисперсия суммы независимых величин

Важнейшее свойство: для независимых $X$ и $Y$ дисперсии складываются:

$$\mathrm{Var}(X+Y)=\mathrm{Var}(X)+\mathrm{Var}(Y).$$

А при умножении на константу дисперсия растёт как квадрат: $\mathrm{Var}(aX)=a^2\mathrm{Var}(X)$. Отсюда следует, что среднее $n$ независимых величин имеет дисперсию в $n$ раз меньше — это и есть причина, по которой частота сходится как $1/\sqrt{n}$.

Как работает под капотом

Модуль statistics вычисляет дисперсию как средний квадрат отклонения от выборочного среднего — буквально по определению, только применённому к данным. Поскольку выборочное среднее само близко к $\mathbb{E}[X]$, а усреднение квадратов отклонений по закону больших чисел сходится к $\mathbb{E}[(X-\mu)^2]$, эмпирическая дисперсия стремится к теоретической. Эквивалентность двух формул дисперсии — это просто раскрытие квадрата $(X-\mu)^2$ под знаком ожидания.

Частые ошибки

Первая ошибка — забыть возвести в квадрат и считать «среднее отклонение» без квадрата: тогда плюсы и минусы сократятся и мера разброса обнулится. Вторая — путать дисперсию (квадратные единицы) со стандартным отклонением (исходные единицы) при интерпретации. Третья — складывать дисперсии зависимых величин: при наличии корреляции появляется дополнительное слагаемое с ковариацией, и простое сложение даёт неверный ответ.

Итог

Дисперсия измеряет разброс: $\mathrm{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2$.
Стандартное отклонение $\sigma=\sqrt{\mathrm{Var}(X)}$ возвращает исходный масштаб.
Для независимых величин дисперсии складываются.
$\mathrm{Var}(aX)=a^2\mathrm{Var}(X)$ — множитель входит в квадрате.