Среднее арифметическое как лучшая оценка
Урок о том, почему именно среднее, а не медиана или первое измерение, считают лучшей оценкой истины.
Среднее арифметическое $\bar x$ серии измерений — сумма всех значений, делённая на их число; при случайных погрешностях это наилучшая (несмещённая) оценка истинного значения.
Сделав одно измерение, мы имеем одно зашумлённое значение. Сделав много и усреднив, мы гасим случайный шум: положительные и отрицательные отклонения частично компенсируют друг друга. Среднее — точка, к которой стягивается результат.
Формула
Для серии из $n$ измерений $x_1, x_2, \ldots, x_n$:
$$\bar x = \frac{1}{n}\sum_{i=1}^{n} x_i$$
Среднее обладает важным свойством: сумма отклонений от него равна нулю, $\sum (x_i - \bar x) = 0$. Именно поэтому оно «уравновешивает» данные.
Почему именно среднее
При нормально распределённых случайных погрешностях среднее арифметическое — оценка с наименьшим разбросом среди всех несмещённых оценок (следствие метода максимального правдоподобия). Проще говоря, ни одна другая формула не даст в среднем более точного попадания в истину при гауссовом шуме.
Как работает под капотом
Возьмём серию измерений и посмотрим, как среднее приближается к истинному значению по мере накопления данных. Истина 50,00, шум гауссов.
import random, statistics
random.seed(1)
istina = 50.0
izmereniya = [istina + random.gauss(0, 1.0) for _ in range(1000)]
for n in [1, 10, 100, 1000]:
sr = statistics.mean(izmereniya[:n])
print(f"n={n:4d} среднее={round(sr, 3):7} откл.от истины={round(sr - istina, 3)}")Вывод:
n= 1 среднее= 51.288 откл.от истины=1.288 n= 10 среднее= 50.286 откл.от истины=0.286 n= 100 среднее= 50.069 откл.от истины=0.069 n=1000 среднее= 50.009 откл.от истины=0.009
Одно измерение промахнулось на 1,3, но уже сотня измерений сократила отклонение почти в двадцать раз, а тысяча — практически легла на истину. Случайный шум подавляется усреднением.
Частые ошибки
- Брать одно измерение и считать его «точным» — у него полный случайный разброс.
- Применять среднее при наличии систематической погрешности и думать, что она исчезнет — нет, среднее сойдётся к «истина плюс систематика».
- Усреднять выборку с непойманными промахами: среднее чувствительно к выбросам.
Итог
- Среднее арифметическое — наилучшая оценка истины при случайных гауссовых погрешностях.
- Сумма отклонений от среднего равна нулю.
- С ростом числа измерений среднее сходится к истинному значению.
- Среднее не лечит систематику и чувствительно к промахам.