Описательная статистика
Учимся описывать данные числами: центр, разброс и форму распределения.
Описательная статистика — сжатие набора данных до нескольких чисел, отражающих его центр и разброс.
Прежде чем строить сложные модели, данные надо описать. Где их «центр»? Насколько они разбросаны? Есть ли выбросы? На эти вопросы отвечают несколько базовых показателей, встроенных в R.
Описательная статистика — это язык, на котором мы коротко рассказываем о данных. Вместо тысячи чисел — два-три показателя, передающих суть: типичное значение, разброс вокруг него, границы. Без этого шага легко обмануться: одно и то же среднее могут давать и ровный, и крайне неоднородный набор. Поэтому грамотный аналитик всегда смотрит и центр, и разброс, и форму распределения — только их сочетание честно описывает данные.
Меры центра: среднее и медиана
mean — среднее арифметическое, median — значение, делящее данные пополам:
income <- c(30, 32, 35, 31, 200)
mean(income)
median(income)Вывод:
[1] 65.6 [1] 32
Обратите внимание: среднее (65.6) сильно завышено из-за выброса 200, а медиана (32) устойчива и точнее отражает «типичный» доход. Поэтому для перекошенных данных (зарплаты, цены) часто предпочитают медиану.
Меры разброса: дисперсия и стандартное отклонение
sd (standard deviation) показывает, насколько в среднем значения отклоняются от среднего:
scores <- c(70, 75, 80, 85, 90)
sd(scores)
var(scores)
range(scores)Вывод:
[1] 7.905694 [1] 62.5 [1] 70 90
var — дисперсия (квадрат sd), range — минимум и максимум. Чем больше sd, тем сильнее разброс данных.
Квантили и сводка
quantile делит данные на части, а summary собирает ключевые показатели:
scores <- c(70, 75, 80, 85, 90)
quantile(scores, 0.25)
summary(scores)Вывод:
25%
75
Min. 1st Qu. Median Mean 3rd Qu. Max.
70 75 80 80 85 90 Как работает под капотом
R по умолчанию считает выборочное стандартное отклонение и дисперсию: делит сумму квадратов отклонений на n-1, а не на n. Это поправка Бесселя — она даёт несмещённую оценку для выборки из большей совокупности. Поэтому ручной расчёт «среднего квадрата отклонений» (деление на n) даст чуть меньшее число, чем var(x). Для учебных данных разница невелика, но в статистике она принципиальна.
Частые ошибки
- Доверять только среднему. При выбросах и перекосах медиана честнее. Смотрите оба показателя.
- Забыть про разброс. Два набора с одним средним могут вести себя совершенно по-разному — нужен
sd. - NA в данных.
mean,sdбезna.rm = TRUEвернут NA при пропусках.
Итог
- Центр данных:
mean(чувствительно к выбросам) иmedian(устойчиво). - Разброс:
sd,var,range. quantileиsummaryдают полную картину распределения.- R считает
sd/varс делением на n-1 (выборочная оценка).