Зачем статистика в анализе данных

Статистика превращает сырые числа в выводы, которым можно доверять и на которых можно строить решения.

Статистика — наука о том, как собирать, описывать и интерпретировать данные, чтобы делать обоснованные выводы в условиях неопределённости.

Данные сами по себе ничего не говорят

Представьте таблицу с десятью тысячами строк: время на сайте, суммы заказов, оценки. Глазами это не охватить. Статистика даёт инструменты, чтобы сжать массив данных до нескольких чисел («в среднем заказ 1500 рублей, половина клиентов тратит меньше 900») и при этом не соврать. Аналитик без статистики — это человек, который смотрит на огромную таблицу и говорит «ну, вроде нормально».

Две большие части статистики

Весь курс крутится вокруг двух задач, и важно с самого начала их различать.

Описательная статистика — описывает данные, которые у вас уже есть. Среднее, медиана, разброс, графики. Вы ничего не предполагаете за пределами выборки, просто аккуратно её резюмируете.
Индуктивная (статистический вывод) — переносит выводы с маленькой выборки на всю генеральную совокупность. «Мы опросили 1000 человек — что можно сказать обо всех миллионах?» Здесь появляются вероятность, доверительные интервалы и проверка гипотез.

Почему одно число обманывает

Классическая ловушка — судить о данных по одному только среднему. Посмотрите на две команды с одинаковой средней зарплатой.

from statistics import mean

# Зарплаты в двух отделах (тыс. руб.)
a = [80, 82, 78, 81, 79]          # ровные зарплаты
b = [20, 25, 30, 45, 280]         # один директор и стажёры

print("Среднее A:", mean(a))
print("Среднее B:", mean(b))
print("Минимум и максимум B:", min(b), max(b))

Вывод:

Среднее A: 80
Среднее B: 80
Минимум и максимум B: 20 280

Средняя зарплата одинаковая — 80 тысяч. Но в отделе A все получают примерно одинаково, а в отделе B почти все живут на 20–45 тысяч, а среднее тянет вверх единственный директор с 280. Одно число «среднее» здесь прямо вводит в заблуждение. Поэтому хороший аналитик всегда смотрит на центр и на разброс — этому посвящены первые два раздела курса.

Где это нужно на практике

Статистика — повседневный инструмент аналитика, а не академическая теория:

оценить, выросла ли конверсия после изменения, или это случайные колебания;
понять, есть ли связь между рекламным бюджетом и продажами;
по опросу 1000 клиентов оценить настроение всей базы и честно сказать, насколько оценка точна;
отловить аномалии и подозрительные выбросы в данных.

Что нам понадобится из Python

Весь курс мы считаем на стандартной библиотеке. Главный герой — модуль statistics: он входит в Python, ничего ставить не нужно.

import statistics

data = [4, 8, 15, 16, 23, 42]
print("Среднее:", statistics.mean(data))
print("Медиана:", statistics.median(data))
print("Стандартное отклонение:", round(statistics.stdev(data), 2))

Вывод:

Среднее: 18
Медиана: 15.5
Стандартное отклонение: 13.49

Если вы понимаете, что означает каждое из этих чисел и когда оно врёт, — вы уже умеете больше, чем большинство людей, рисующих графики. Поехали.

Итог

Статистика сжимает данные до интерпретируемых чисел, не теряя смысла.
Описательная статистика описывает имеющуюся выборку; индуктивная переносит выводы на всю совокупность.
Одно число (особенно среднее) без меры разброса легко вводит в заблуждение.
Для расчётов хватает стандартного модуля statistics.