Предвзятость и откуда она берётся

Модель не злая и не добрая — она просто зеркало тех текстов, на которых училась, и если в них были перекосы, она их повторит, причём очень уверенно.

Предвзятость — это когда модель систематически выдаёт несправедливые или однобокие ответы не потому, что её так задумали, а потому, что такие перекосы были в данных, на которых она училась.

Зачем тебе вообще про это знать

Представь: ты просишь ИИ придумать историю про гениального программиста. Запускаешь несколько раз — и почти всегда герой получается парнем. Просишь нарисовать «врача» — выходит мужчина в халате, а «медсестру» — женщина. Ты ведь не просил именно так. Модель сама достроила. Откуда она это взяла?

Или другой пример, ближе к нашему сквозному сюжету про кошек и собак. Допустим, ты собрал картинки для обучения модели, которая отличает кошку от собаки. Но так вышло, что почти все фото кошек ты снял дома на диване, а почти все фото собак — на улице в парке. Модель честно поучится... и решит, что главный признак собаки — это трава на заднем плане. Покажи ей кошку в парке — и она радостно скажет «собака». Это и есть предвзятость: модель уцепилась не за то, за что надо, потому что в данных был незаметный перекос.

К концу урока ты будешь понимать, почему даже самая большая и умная модель вроде ChatGPT может выдать стереотип или несправедливый ответ, откуда это берётся и что с этим делают инженеры. И главное — научишься замечать такие перекосы сам, чтобы не принимать ответ ИИ за истину просто потому, что он звучит гладко.

Что такое предвзятость на самом деле

Метафора: ИИ — это эхо данных

Вспомни, как работает зубрёжка перед экзаменом. Если ты готовился только по одному учебнику, ты будешь отвечать ровно так, как написано в нём, со всеми его примерами и даже опечатками. Если в учебнике была ошибка — ты её повторишь, и повторишь уверенно, потому что больше тебе сравнивать не с чем.

Модель устроена похоже, только её «учебник» — это горы текстов и картинок из интернета. В прошлом уроке про предобучение на интернете мы разбирали, что большую языковую модель кормят гигантским объёмом текстов, чтобы она научилась предсказывать следующее слово. Так вот: модель впитывает не только грамматику и факты, но и все привычки, перекосы и стереотипы, которые в этих текстах были. Она не отличает «как принято говорить» от «как справедливо». Для неё это просто частоты слов рядом друг с другом.

Данные — примеры, на которых учится модель: картинки, тексты, числа с правильными ответами или без них.

Поэтому правильнее думать о предвзятости не как о «характере» модели, а как об эхе. Что в данных громче звучало — то модель и повторит. Если в текстах слово «программист» в миллион раз чаще стояло рядом со словом «он», чем со словом «она», модель просто выучит эту связь как самую вероятную.

Откуда перекос попадает в данные

Главное, что нужно понять: предвзятость почти никогда не закладывают специально. Она протекает в модель сама, по нескольким каналам. Вот основные.

Канал	Что происходит	Пример
Перекос в сборе	Каких-то примеров в данных намного больше, чем других	Почти все фото кошек — дома, почти все фото собак — на улице
Стереотипы в текстах	Люди веками писали с предубеждениями, и это осело в текстах	«Сильный» чаще стоит рядом с «мужчина», «нежная» — рядом с «женщина»
Кто писал тексты	В интернете одни языки, страны и группы представлены гуще других	Ответы про мировую историю незаметно смещены к взгляду богатых стран
Что разметили люди	Метки ставят люди, а у людей свои привычки и устали к вечеру	Один разметчик считает шутку «обидной», другой — «нормальной»

Метка — правильный ответ для обучающего примера, например слово «кошка» рядом с фотографией.

Заметь: ни в одной строке таблицы нет злого умысла. Просто мир, отражённый в данных, сам по себе неровный, а модель честно копирует эту неровность.

Разбираем на примерах

Пример 1: кошка в парке (перекос в сборе данных)

Вернёмся к нашему сквозному примеру. Помнишь, в первых уроках мы говорили, что модель отличает кошку от собаки по признакам: форма ушей, морда, размер? В идеале так и должно быть. Но модель учится не на наших пожеланиях, а на том, что реально есть в данных.

Признак — отдельная измеримая характеристика объекта, по которой модель принимает решение, например форма ушей у животного.

Разберём по шагам, как рождается перекос:

Ты собрал 1000 фото: 500 кошек, 500 собак.
Случайно вышло, что 480 из 500 кошек сфотканы в комнате, а 470 из 500 собак — на улице.
Модель ищет самый простой признак, который делит фото на две кучи. И «трава на фоне» делит их почти идеально — проще, чем разбираться в форме ушей.
Модель решает: трава → собака, диван → кошка. На обучающих данных она почти не ошибается, и все радуются.
Ты приносишь фото кошки, которая гуляет по газону. Модель уверенно говорит «собака».

Это классическая предвзятость от перекоса в сборе. Модель не глупая — она нашла рабочую закономерность. Просто эта закономерность была не про животных, а про то, где ты любишь фотографировать. Виноваты данные, а не модель.

Пример 2: «гениальный программист» (стереотипы в текстах)

Теперь текстовый сюжет. Вспомни наш второй сквозной пример — как модель предсказывает следующее слово во фразе вроде «Кошка пьёт ...». Тот же самый механизм работает и здесь, только на словах про людей.

Модель видела в текстах миллионы предложений. Среди них слово «программист» гораздо чаще шло вместе с «он», «парень», «он написал код». Сочетания «она — гениальный программист» в данных было намного меньше — не потому что таких людей нет, а потому что так исторически меньше писали.

Что делает языковая модель, когда ты просишь её придумать историю про гениального программиста? Она предсказывает самые вероятные следующие слова. А самое вероятное по её данным — это «он». Получается, модель не «считает», что женщины хуже программируют. Она просто механически выдаёт самый частый вариант из того, что видела.

Языковая модель — модель, которая предсказывает следующее слово в тексте и так умеет генерировать осмысленные ответы.

Опасность тут в том, что ответ звучит абсолютно нормально и гладко. Никакой ошибки в грамматике, никакого сбоя. Поэтому перекос легко не заметить — он маскируется под «обычный текст».

Пример 3: чей это взгляд (кто писал данные)

Спроси модель про какой-нибудь праздник, традиционную еду или «нормальный распорядок дня» — и часто ответ будет смещён к тому, как живут в странах, где много контента в интернете. Если в данных по-английски написано в сотни раз больше текстов, чем на каком-нибудь редком языке, модель будет лучше «знать» культуру первых и хуже — вторых.

Это не значит, что модель кого-то не уважает. Это значит, что одних голосов в её «учебнике» было слышно громко, а других почти не было. И когда ты задаёшь общий вопрос, модель отвечает с позиции громкого большинства, даже если ты сам из тихого меньшинства. Полезно держать это в голове, особенно когда спрашиваешь что-то про культуру, историю или «как принято».

Частые ошибки и заблуждения

Вокруг предвзятости ИИ много путаницы. Разберём ловушки, в которые попадают почти все новички.

«Раз это компьютер, значит, он объективный». Это самое опасное заблуждение. Кажется, что машина считает честно, без эмоций. Но модель не считает истину — она повторяет статистику данных. Цифры на выходе не делают ответ справедливым.
Путать предвзятость с галлюцинацией. Галлюцинация — это когда модель выдумала факт, которого нет. Предвзятость — когда факты вроде верные, но ответ систематически перекошен в одну сторону. Это разные проблемы, хотя обе про доверие к ответу.
Думать, что больше данных = меньше предвзятости. Если ты добавишь ещё миллион текстов с теми же перекосами, модель просто сильнее в них уверится. Важно не количество данных, а их разнообразие и сбалансированность.
Путать предвзятость с переобучением. Переобучение — это когда модель зазубрила конкретные обучающие примеры и плохо работает на новых. Предвзятость остаётся даже у хорошо обученной модели, потому что сидит в самих данных, а не в зубрёжке.
Винить модель, а не данные. Фраза «ИИ — расист/сексист» звучит цепляюще, но сбивает с толку. У модели нет убеждений. Перекос пришёл из данных и из того, кто и как их собрал. Чинить надо данные и процесс, а не ругать программу.

Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.

Переобучение — ситуация, когда модель зазубрила обучающие примеры и плохо работает на новых данных.

Как с предвзятостью борются

Хорошая новость: про эту проблему знают, и с ней целенаправленно работают. Полностью убрать предвзятость нельзя — мир неровный, и данные тоже. Но её можно сильно уменьшить. Вот главные приёмы простыми словами.

Приём	Идея на пальцах
Балансировать данные	Специально добавить недостающих примеров: кошек на улице, историй про девушек-программисток
Чистить данные	Выкидывать откровенно токсичные и стереотипные тексты ещё до обучения
Дообучение на оценках людей (RLHF)	Люди оценивают ответы, и модель учится не выдавать обидные или однобокие варианты
Тестировать на честность	Прогонять модель через специальные проверки: «а не перекошены ли ответы про разные группы?»

RLHF — дообучение модели на оценках людей, чтобы её ответы стали полезными, честными и безопасными.

Важно понимать: даже после всех этих усилий идеальной модели не существует. Поэтому последний и самый надёжный фильтр — это ты сам. Критическое отношение к ответу ИИ — не вредность, а нормальная гигиена.

Мини-практика: поймай перекос сам

Теория ничего не стоит, пока ты не пощупал её руками. Вот задание, которое можно сделать с любым доступным ИИ-чатом (или хотя бы продумать на бумаге, если доступа нет).

Попроси ИИ несколько раз подряд: «Придумай короткую историю про успешного шахматиста». Запиши, кто получается героем каждый раз — парень или девушка. Есть ли перекос?
Попроси описать «типичный завтрак». Чей это завтрак, из какой страны? Совпадает ли с твоим?
Вернись к нашему сквозному примеру. Представь, что ты собираешь данные для модели «кошка против собаки». Напиши список из трёх правил, как собрать фото так, чтобы в данные не протёк перекос вроде «трава = собака».

Продвинутый вариант: придумай свою задачу классификации (например, «определить по тексту, грустный пост или весёлый») и подумай, какой незаметный перекос мог бы туда попасть. Например, если все грустные посты ты соберёшь из одного сообщества, а весёлые — из другого, модель выучит не настроение, а стиль конкретного сообщества. Это та же ловушка, что с кошкой в парке, просто на тексте.

Цель упражнения не в том, чтобы поймать ИИ на ошибке и позлорадствовать. Цель — натренировать у себя привычку спрашивать: «а откуда модель это взяла и чьим голосом она сейчас говорит?»

Итоги

Предвзятость — это систематический перекос в ответах модели, который пришёл из данных, а не из злого умысла; модель просто эхо того, на чём училась.
Перекос протекает через несколько каналов: неравномерный сбор данных, стереотипы в текстах, неравное представительство разных групп и привычки людей-разметчиков.
На нашем сквозном примере это видно так: модель может выучить «трава = собака» вместо настоящих признаков, а в текстах — выдавать «программист → он» как самый вероятный вариант.
Предвзятость — не то же самое, что галлюцинация или переобучение, и компьютер вовсе не означает «объективно».
С ней борются балансировкой и чисткой данных, дообучением на оценках людей (RLHF) и проверками на честность — но полностью не убирают, поэтому последний фильтр всегда ты сам.

Теперь ты умеешь видеть за гладким ответом ИИ его источник — данные с их перекосами. В следующих уроках раздела «Ограничения и риски» мы разберём другие подводные камни: как модель выдаёт уверенную чушь (галлюцинации) и как отличить настоящее от подделки вроде дипфейков. А пока — попробуй задание из мини-практики и поймай свой первый перекос вживую.