Выборка и генеральная совокупность

Мы почти никогда не видим все данные целиком и судим о целом по его части. Качество этой части решает всё.

Генеральная совокупность — все объекты, о которых мы хотим сделать вывод. Выборка — та их часть, которую мы реально наблюдаем и измеряем.

Почему нельзя измерить всех

Хотите узнать средний доход жителей города — опросить всех физически невозможно. Хотите оценить долю бракованных деталей — проверять каждую дорого, а иногда проверка разрушает деталь. Поэтому мы берём выборку и переносим выводы на всю совокупность. Вся индуктивная статистика — про то, как делать это честно.

Главное слово: репрезентативность

Выборка полезна, только если она репрезентативна — отражает совокупность без перекоса. Опросить о любимом ТВ-шоу только подписчиков одного канала — значит получить картину этого канала, а не страны. Классический способ добиться репрезентативности — случайный отбор: каждый объект имеет равный шанс попасть в выборку.

import random
random.seed(42)

# Генеральная совокупность: 10000 человек, доход в тыс. руб.
population = [random.randint(30, 120) for _ in range(10000)]

# Случайная выборка из 100 человек
sample = random.sample(population, 100)

from statistics import mean
print("Среднее по совокупности:", round(mean(population), 1))
print("Среднее по выборке:     ", round(mean(sample), 1))

Вывод:

Среднее по совокупности: 75.8
Среднее по выборке:      77.2

Мы измерили всего 100 человек из 10000, но оценка среднего почти совпала с истинным значением. Случайность работает: маленькая, но честно отобранная выборка хорошо приближает целое.

Систематическая ошибка отбора (bias)

А вот что бывает, когда выборка не случайна. Возьмём из той же совокупности только «богатых» (доход выше 90) — будто опросили людей у входа в дорогой магазин.

import random
random.seed(42)
population = [random.randint(30, 120) for _ in range(10000)]

# Смещённая выборка: только люди с высоким доходом
biased = [x for x in population if x > 90][:100]

from statistics import mean
print("Среднее по совокупности:", round(mean(population), 1))
print("Среднее по смещённой выборке:", round(mean(biased), 1))

Вывод:

Среднее по совокупности: 75.8
Среднее по смещённой выборке: 105.6

Оценка завышена почти на тридцать тысяч — и никакое увеличение размера такой выборки не спасёт: вы будете всё точнее измерять не ту группу. Это и есть систематическая ошибка отбора. Знаменитый исторический пример — опрос 1936 года по телефонам и автомобильным спискам, предсказавший победу не тому кандидату: в разгар Великой депрессии телефон и машина были у более обеспеченных.

Случайность важнее размера

Интуитивно кажется, что чем больше данных, тем лучше. Это так только при честном отборе. Маленькая случайная выборка почти всегда полезнее огромной смещённой. Объём уменьшает случайный разброс оценки, но никак не лечит систематический перекос.

Обозначения: параметр и статистика

Чтобы не путаться дальше в курсе, запомните разницу:

	Совокупность	Выборка
Как называют число	параметр	статистика (оценка)
Среднее	μ (мю)	x̄ (икс с чертой)
Известно ли точно	обычно нет	да, считаем по данным

Мы почти никогда не знаем истинный параметр μ — мы оцениваем его статистикой x̄ по выборке. Поэтому у любой оценки есть погрешность, и в шестом разделе мы научимся её измерять доверительным интервалом.

Итог

Совокупность — всё, о чём делаем вывод; выборка — наблюдаемая часть.
Случайный отбор даёт репрезентативную выборку, близкую к совокупности.
Смещённая выборка завышает или занижает оценку, и размер этого не лечит.
Число по совокупности — параметр (μ), по выборке — статистика (x̄), которая его оценивает.