Среднее арифметическое как лучшая оценка

Урок о том, почему именно среднее, а не медиана или первое измерение, считают лучшей оценкой истины.

Среднее арифметическое $\bar x$ серии измерений — сумма всех значений, делённая на их число; при случайных погрешностях это наилучшая (несмещённая) оценка истинного значения.

Сделав одно измерение, мы имеем одно зашумлённое значение. Сделав много и усреднив, мы гасим случайный шум: положительные и отрицательные отклонения частично компенсируют друг друга. Среднее — точка, к которой стягивается результат.

Формула

Для серии из $n$ измерений $x_1, x_2, \ldots, x_n$:

$$\bar x = \frac{1}{n}\sum_{i=1}^{n} x_i$$

Среднее обладает важным свойством: сумма отклонений от него равна нулю, $\sum (x_i - \bar x) = 0$. Именно поэтому оно «уравновешивает» данные.

Почему именно среднее

При нормально распределённых случайных погрешностях среднее арифметическое — оценка с наименьшим разбросом среди всех несмещённых оценок (следствие метода максимального правдоподобия). Проще говоря, ни одна другая формула не даст в среднем более точного попадания в истину при гауссовом шуме.

Как работает под капотом

Возьмём серию измерений и посмотрим, как среднее приближается к истинному значению по мере накопления данных. Истина 50,00, шум гауссов.

import random, statistics
random.seed(1)

istina = 50.0
izmereniya = [istina + random.gauss(0, 1.0) for _ in range(1000)]

for n in [1, 10, 100, 1000]:
    sr = statistics.mean(izmereniya[:n])
    print(f"n={n:4d}  среднее={round(sr, 3):7}  откл.от истины={round(sr - istina, 3)}")

Вывод:

n=   1  среднее=  51.288  откл.от истины=1.288
n=  10  среднее=  50.286  откл.от истины=0.286
n= 100  среднее=  50.069  откл.от истины=0.069
n=1000  среднее=  50.009  откл.от истины=0.009

Одно измерение промахнулось на 1,3, но уже сотня измерений сократила отклонение почти в двадцать раз, а тысяча — практически легла на истину. Случайный шум подавляется усреднением.

Частые ошибки

  • Брать одно измерение и считать его «точным» — у него полный случайный разброс.
  • Применять среднее при наличии систематической погрешности и думать, что она исчезнет — нет, среднее сойдётся к «истина плюс систематика».
  • Усреднять выборку с непойманными промахами: среднее чувствительно к выбросам.

Итог

  • Среднее арифметическое — наилучшая оценка истины при случайных гауссовых погрешностях.
  • Сумма отклонений от среднего равна нулю.
  • С ростом числа измерений среднее сходится к истинному значению.
  • Среднее не лечит систематику и чувствительно к промахам.
Проверьте себя
1. Чему равна сумма отклонений всех значений от их среднего?
Aчислу измерений
Bнулю
Cсреднему
DСКО
2. При каких погрешностях среднее арифметическое — наилучшая оценка истины?
Aпри систематических
Bпри грубых
Cпри случайных (нормальных)
Dпри любых без исключения