Проверка гипотез и t.test

Знакомимся с проверкой гипотез — способом отличить реальную закономерность от случайности.

Проверка гипотез — статистическая процедура, которая оценивает, могла ли наблюдаемая разница возникнуть случайно.

Допустим, в группе A средний балл 75, в группе B — 80. Это реальное различие или просто случайный разброс? Проверка гипотез даёт численный ответ через p-значение, а в R самый частый инструмент для сравнения средних — функция t.test.

Эта проблема встаёт постоянно: помог ли новый препарат, выросла ли конверсия после редизайна, отличаются ли зарплаты в двух отделах. Глазами разницу средних не оценить — нужен критерий, который учитывает и величину различия, и разброс данных, и размер выборки. Проверка гипотез как раз и формализует здравый смысл «достаточно ли велика разница, чтобы ей верить». Это фундамент A/B-тестов, клинических испытаний и научных выводов вообще, поэтому понимать её обязан каждый аналитик.

Нулевая гипотеза и p-значение

В основе лежит нулевая гипотеза — предположение «различия нет, всё случайно». p-значение — вероятность увидеть такую разницу (или больше) при условии, что нулевая гипотеза верна. Договорённость: если p < 0.05, различие считают статистически значимым и нулевую гипотезу отвергают.

t.test для двух групп

Сравним средние двух выборок:

group_a <- c(72, 75, 78, 74, 76)
group_b <- c(80, 82, 79, 85, 83)
t.test(group_a, group_b)

Вывод:

	Welch Two Sample t-test

t = -5.27, df = 7.9, p-value = 0.0008
alternative hypothesis: true difference in means is not equal to 0
sample estimates:
mean of x mean of y 
     75.0      81.8

Здесь p-value = 0.0008 намного меньше 0.05 — различие средних (75 против 81.8) статистически значимо, его трудно объяснить случайностью.

Как читать результат

Показатель	Смысл
`t`	величина t-статистики
`p-value`	вероятность случайности (меньше — значимее)
`mean of x/y`	средние сравниваемых групп

Как работает под капотом

t-критерий сравнивает разницу средних с величиной разброса внутри групп. Если средние далеко друг от друга, а разброс мал — t-статистика по модулю велика, а p-значение мало. По умолчанию R применяет тест Уэлча, который не требует равенства дисперсий групп — это более безопасный выбор, чем классический t-тест Стьюдента. Важно: маленькое p-значение говорит о статистической значимости, но не о практической важности и не о размере эффекта — это разные вещи.

Частые ошибки

Трактовать p-значение как «вероятность, что гипотеза верна». Это не так: p — вероятность данных при верной нулевой гипотезе.
Считать p < 0.05 доказательством важности. Значимость и величина эффекта — разные вещи.
Игнорировать предпосылки. t-тест предполагает примерно нормальное распределение; для сильно перекошенных данных есть другие тесты.

Итог

Нулевая гипотеза — «различий нет, всё случайно».
p-значение мало (< 0.05) → различие считают значимым.
t.test(a, b) сравнивает средние двух групп (по умолчанию тест Уэлча).
Значимость ≠ величина эффекта и ≠ практическая важность.