Этика моделирования и реальные кейсы

Сложная модель выдала прогноз с точностью до десятых. Выглядит авторитетно. Но за каждой цифрой стоят допущения, которые кто-то выбрал — и которые могли быть подобраны под нужный ответ. Заключительный урок курса — о том, как пользоваться моделями честно.

Этика моделирования — это совокупность принципов ответственного построения и применения моделей: явность допущений, честность об ограничениях, отказ от манипуляций результатами и прозрачность для тех, кто принимает решения на основе модели.

Главный этический факт о моделях вы уже знаете из этого курса: модель не равна реальности. Она всегда упрощение. Это не недостаток — это её суть. Но из этого следует ответственность: тот, кто строит модель, обязан честно говорить, где она применима, а где нет, и не выдавать упрощение за истину.

Ограничения прогнозов

Особенно остро это проявляется в долгосрочных прогнозах сложных систем — пандемий и климата. Эти системы чувствительны к допущениям: малое изменение во входных предположениях (заразность вируса, скорость реакции людей, обратные связи в климате) уводит прогноз далеко в сторону на длинном горизонте. Поэтому честный климатический или эпидемиологический прогноз — это всегда веер сценариев с интервалами, а не одна линия. Кто рисует одну линию на 30 лет вперёд — либо не понимает модель, либо манипулирует.

Как моделями манипулируют

Подбор допущений под вывод. Сначала выбирают желаемый ответ, потом крутят входные предположения, пока модель его не выдаст. Формально всё «посчитано», по сути — подгонка.
«Точность» как иллюзия авторитета. Прогноз «42 357 случаев» звучит научнее, чем «десятки тысяч», хотя за лишними цифрами нет никакой реальной точности — только ложная уверенность.
Сокрытие неопределённости. Показывают среднее, прячут интервал. Вы уже знаете из прошлых уроков, насколько это нечестно.

Ответственность моделиста

Из этого вытекают три простых правила честного моделирования, которые красной нитью прошли через весь курс: явно перечисляйте допущения (читатель должен видеть, на чём стоит модель), давайте интервалы вместо одного числа (как в уроках про Монте-Карло и доверительные интервалы) и сохраняйте прозрачность (модель и данные должны быть проверяемы). Модель — это инструмент мышления и аргумент в споре, а не оракул.

Реальный кейс A: распространение слуха

Посмотрим на маленькую модель, близкую к реальности, — как слух (или вирус, или мем) расходится по группе из 100 человек. Каждый знающий за день пытается рассказать двум случайным людям и с вероятностью 0.5 успешно заражает каждого. Это упрощение — но оно ловит главную динамику.

import random
random.seed(13)
pop = 100
knows = set([0])
days = []
for day in range(15):
    new = set()
    for person in list(knows):
        for _ in range(2):
            target = random.randint(0, pop - 1)
            if target not in knows and random.random() < 0.5:
                new.add(target)
    knows |= new
    days.append(len(knows))
print("Знают слух по дням:", days)

Вывод:

Знают слух по дням: [2, 4, 7, 14, 26, 44, 66, 86, 94, 97, 98, 99, 100, 100, 100]

Посмотрите на форму ряда. Сначала рост медленный (2, 4, 7), потом резко ускоряется (14, 26, 44, 66, 86) и под конец почти замирает у потолка (97, 98, 99, 100). Это классическая S-образная (логистическая) кривая. Механизм тот же, что в эпидемии: в начале мало «заразных», поэтому новых заражений немного; в середине знающих много, а незнающих ещё хватает — рост взрывной; в конце почти все уже знают, заражать некого — рост выдыхается. Та же кривая описывает распространение вирусов, технологий, моды.

Реальный кейс B: пробка на дороге

Второй кейс — модель дорожного трафика как простейший клеточный автомат. Дорога — это кольцо из 20 клеток; машина (C) едет на одну клетку вправо, если впереди свободно, и стоит, если впереди другая машина. Из одного локального правила «не врежься в переднего» рождается глобальное явление — пробка.

road = ['.'] * 20
for p in [0, 1, 2, 5, 6, 10]:
    road[p] = 'C'

def show(r):
    return ''.join(r)

print("t0:", show(road))
for t in range(1, 5):
    new = ['.'] * 20
    for i in range(20):
        if road[i] == 'C':
            nxt = (i + 1) % 20
            if road[nxt] == '.':
                new[nxt] = 'C'
            else:
                new[i] = 'C'
    road = new
    print(f"t{t}:", show(road))

Вывод:

t0: CCC..CC...C.........
t1: CC.C.C.C...C........
t2: C.C.C.C.C...C.......
t3: .C.C.C.C.C...C......
t4: ..C.C.C.C.C...C.....

Следите за плотной группой CCC в начале (t0). Машина впереди свободна и уезжает, а задние упираются в стоящих — затор. Но шаг за шагом группа рассасывается: на t1 уже CC.C.C, на t4 машины едут с равными промежутками C.C.C.C. Это и есть жизнь пробки: она возникает из локальной плотности и расходится, когда впереди появляется свобода. Реальные модели трафика (модель Нагеля–Шрекенберга и её родственники) устроены ровно по этому принципу — простые правила для каждой машины порождают волны заторов, которые мы наблюдаем на настоящих дорогах, включая «пробки из ниоткуда».

Частые ошибки

Принимать модель за реальность. Модель — карта, а не территория; путать их опасно особенно в значимых прогнозах.
Доверять «точным» цифрам сложной модели. Лишние знаки после запятой создают иллюзию авторитета, а не точность.
Скрывать допущения. Если читатель не видит, на чём стоит модель, он не может оценить, можно ли ей верить.
Сообщать одно число вместо интервала. Честный прогноз сложной системы — это веер сценариев, а не одна линия.
Игнорировать чувствительность к допущениям. Для длинных горизонтов (климат, пандемии) малая правка входа меняет вывод — об этом надо предупреждать.

Итоги

Модель не равна реальности — это её природа; ответственность моделиста — честно говорить о пределах применимости.
Прогнозы сложных систем (пандемии, климат) чувствительны к допущениям и должны подаваться как веер сценариев с интервалами.
Манипуляции: подбор допущений под вывод, «точность» как ложный авторитет, сокрытие неопределённости.
Три правила честного моделиста: явные допущения, интервалы вместо одного числа, прозрачность.
Реальные кейсы: слух даёт S-образную (логистическую) кривую; пробка — клеточный автомат, где из локального правила рождается глобальная волна затора.
Итог курса: моделирование — мощный инструмент мышления, и именно поэтому им нужно пользоваться ответственно. Умейте строить модели — и умейте честно показывать их границы.