Предвзятость и откуда она берётся

Модель не злая и не добрая — она просто зеркало тех текстов, на которых училась, и если в них были перекосы, она их повторит, причём очень уверенно.
Предвзятость — это когда модель систематически выдаёт несправедливые или однобокие ответы не потому, что её так задумали, а потому, что такие перекосы были в данных, на которых она училась.

Зачем тебе вообще про это знать

Представь: ты просишь ИИ придумать историю про гениального программиста. Запускаешь несколько раз — и почти всегда герой получается парнем. Просишь нарисовать «врача» — выходит мужчина в халате, а «медсестру» — женщина. Ты ведь не просил именно так. Модель сама достроила. Откуда она это взяла?

Или другой пример, ближе к нашему сквозному сюжету про кошек и собак. Допустим, ты собрал картинки для обучения модели, которая отличает кошку от собаки. Но так вышло, что почти все фото кошек ты снял дома на диване, а почти все фото собак — на улице в парке. Модель честно поучится... и решит, что главный признак собаки — это трава на заднем плане. Покажи ей кошку в парке — и она радостно скажет «собака». Это и есть предвзятость: модель уцепилась не за то, за что надо, потому что в данных был незаметный перекос.

К концу урока ты будешь понимать, почему даже самая большая и умная модель вроде ChatGPT может выдать стереотип или несправедливый ответ, откуда это берётся и что с этим делают инженеры. И главное — научишься замечать такие перекосы сам, чтобы не принимать ответ ИИ за истину просто потому, что он звучит гладко.

Что такое предвзятость на самом деле

Метафора: ИИ — это эхо данных

Вспомни, как работает зубрёжка перед экзаменом. Если ты готовился только по одному учебнику, ты будешь отвечать ровно так, как написано в нём, со всеми его примерами и даже опечатками. Если в учебнике была ошибка — ты её повторишь, и повторишь уверенно, потому что больше тебе сравнивать не с чем.

Модель устроена похоже, только её «учебник» — это горы текстов и картинок из интернета. В прошлом уроке про предобучение на интернете мы разбирали, что большую языковую модель кормят гигантским объёмом текстов, чтобы она научилась предсказывать следующее слово. Так вот: модель впитывает не только грамматику и факты, но и все привычки, перекосы и стереотипы, которые в этих текстах были. Она не отличает «как принято говорить» от «как справедливо». Для неё это просто частоты слов рядом друг с другом.

Данные — примеры, на которых учится модель: картинки, тексты, числа с правильными ответами или без них.

Поэтому правильнее думать о предвзятости не как о «характере» модели, а как об эхе. Что в данных громче звучало — то модель и повторит. Если в текстах слово «программист» в миллион раз чаще стояло рядом со словом «он», чем со словом «она», модель просто выучит эту связь как самую вероятную.

Откуда перекос попадает в данные

Главное, что нужно понять: предвзятость почти никогда не закладывают специально. Она протекает в модель сама, по нескольким каналам. Вот основные.

КаналЧто происходитПример
Перекос в сбореКаких-то примеров в данных намного больше, чем другихПочти все фото кошек — дома, почти все фото собак — на улице
Стереотипы в текстахЛюди веками писали с предубеждениями, и это осело в текстах«Сильный» чаще стоит рядом с «мужчина», «нежная» — рядом с «женщина»
Кто писал текстыВ интернете одни языки, страны и группы представлены гуще другихОтветы про мировую историю незаметно смещены к взгляду богатых стран
Что разметили людиМетки ставят люди, а у людей свои привычки и устали к вечеруОдин разметчик считает шутку «обидной», другой — «нормальной»
Метка — правильный ответ для обучающего примера, например слово «кошка» рядом с фотографией.

Заметь: ни в одной строке таблицы нет злого умысла. Просто мир, отражённый в данных, сам по себе неровный, а модель честно копирует эту неровность.

Разбираем на примерах

Пример 1: кошка в парке (перекос в сборе данных)

Вернёмся к нашему сквозному примеру. Помнишь, в первых уроках мы говорили, что модель отличает кошку от собаки по признакам: форма ушей, морда, размер? В идеале так и должно быть. Но модель учится не на наших пожеланиях, а на том, что реально есть в данных.

Признак — отдельная измеримая характеристика объекта, по которой модель принимает решение, например форма ушей у животного.

Разберём по шагам, как рождается перекос:

  1. Ты собрал 1000 фото: 500 кошек, 500 собак.
  2. Случайно вышло, что 480 из 500 кошек сфотканы в комнате, а 470 из 500 собак — на улице.
  3. Модель ищет самый простой признак, который делит фото на две кучи. И «трава на фоне» делит их почти идеально — проще, чем разбираться в форме ушей.
  4. Модель решает: трава → собака, диван → кошка. На обучающих данных она почти не ошибается, и все радуются.
  5. Ты приносишь фото кошки, которая гуляет по газону. Модель уверенно говорит «собака».

Это классическая предвзятость от перекоса в сборе. Модель не глупая — она нашла рабочую закономерность. Просто эта закономерность была не про животных, а про то, где ты любишь фотографировать. Виноваты данные, а не модель.

Пример 2: «гениальный программист» (стереотипы в текстах)

Теперь текстовый сюжет. Вспомни наш второй сквозной пример — как модель предсказывает следующее слово во фразе вроде «Кошка пьёт ...». Тот же самый механизм работает и здесь, только на словах про людей.

Модель видела в текстах миллионы предложений. Среди них слово «программист» гораздо чаще шло вместе с «он», «парень», «он написал код». Сочетания «она — гениальный программист» в данных было намного меньше — не потому что таких людей нет, а потому что так исторически меньше писали.

Что делает языковая модель, когда ты просишь её придумать историю про гениального программиста? Она предсказывает самые вероятные следующие слова. А самое вероятное по её данным — это «он». Получается, модель не «считает», что женщины хуже программируют. Она просто механически выдаёт самый частый вариант из того, что видела.

Языковая модель — модель, которая предсказывает следующее слово в тексте и так умеет генерировать осмысленные ответы.

Опасность тут в том, что ответ звучит абсолютно нормально и гладко. Никакой ошибки в грамматике, никакого сбоя. Поэтому перекос легко не заметить — он маскируется под «обычный текст».

Пример 3: чей это взгляд (кто писал данные)

Спроси модель про какой-нибудь праздник, традиционную еду или «нормальный распорядок дня» — и часто ответ будет смещён к тому, как живут в странах, где много контента в интернете. Если в данных по-английски написано в сотни раз больше текстов, чем на каком-нибудь редком языке, модель будет лучше «знать» культуру первых и хуже — вторых.

Это не значит, что модель кого-то не уважает. Это значит, что одних голосов в её «учебнике» было слышно громко, а других почти не было. И когда ты задаёшь общий вопрос, модель отвечает с позиции громкого большинства, даже если ты сам из тихого меньшинства. Полезно держать это в голове, особенно когда спрашиваешь что-то про культуру, историю или «как принято».

Частые ошибки и заблуждения

Вокруг предвзятости ИИ много путаницы. Разберём ловушки, в которые попадают почти все новички.

  1. «Раз это компьютер, значит, он объективный». Это самое опасное заблуждение. Кажется, что машина считает честно, без эмоций. Но модель не считает истину — она повторяет статистику данных. Цифры на выходе не делают ответ справедливым.
  2. Путать предвзятость с галлюцинацией. Галлюцинация — это когда модель выдумала факт, которого нет. Предвзятость — когда факты вроде верные, но ответ систематически перекошен в одну сторону. Это разные проблемы, хотя обе про доверие к ответу.
  3. Думать, что больше данных = меньше предвзятости. Если ты добавишь ещё миллион текстов с теми же перекосами, модель просто сильнее в них уверится. Важно не количество данных, а их разнообразие и сбалансированность.
  4. Путать предвзятость с переобучением. Переобучение — это когда модель зазубрила конкретные обучающие примеры и плохо работает на новых. Предвзятость остаётся даже у хорошо обученной модели, потому что сидит в самих данных, а не в зубрёжке.
  5. Винить модель, а не данные. Фраза «ИИ — расист/сексист» звучит цепляюще, но сбивает с толку. У модели нет убеждений. Перекос пришёл из данных и из того, кто и как их собрал. Чинить надо данные и процесс, а не ругать программу.
Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.
Переобучение — ситуация, когда модель зазубрила обучающие примеры и плохо работает на новых данных.

Как с предвзятостью борются

Хорошая новость: про эту проблему знают, и с ней целенаправленно работают. Полностью убрать предвзятость нельзя — мир неровный, и данные тоже. Но её можно сильно уменьшить. Вот главные приёмы простыми словами.

ПриёмИдея на пальцах
Балансировать данныеСпециально добавить недостающих примеров: кошек на улице, историй про девушек-программисток
Чистить данныеВыкидывать откровенно токсичные и стереотипные тексты ещё до обучения
Дообучение на оценках людей (RLHF)Люди оценивают ответы, и модель учится не выдавать обидные или однобокие варианты
Тестировать на честностьПрогонять модель через специальные проверки: «а не перекошены ли ответы про разные группы?»
RLHF — дообучение модели на оценках людей, чтобы её ответы стали полезными, честными и безопасными.

Важно понимать: даже после всех этих усилий идеальной модели не существует. Поэтому последний и самый надёжный фильтр — это ты сам. Критическое отношение к ответу ИИ — не вредность, а нормальная гигиена.

Мини-практика: поймай перекос сам

Теория ничего не стоит, пока ты не пощупал её руками. Вот задание, которое можно сделать с любым доступным ИИ-чатом (или хотя бы продумать на бумаге, если доступа нет).

  1. Попроси ИИ несколько раз подряд: «Придумай короткую историю про успешного шахматиста». Запиши, кто получается героем каждый раз — парень или девушка. Есть ли перекос?
  2. Попроси описать «типичный завтрак». Чей это завтрак, из какой страны? Совпадает ли с твоим?
  3. Вернись к нашему сквозному примеру. Представь, что ты собираешь данные для модели «кошка против собаки». Напиши список из трёх правил, как собрать фото так, чтобы в данные не протёк перекос вроде «трава = собака».

Продвинутый вариант: придумай свою задачу классификации (например, «определить по тексту, грустный пост или весёлый») и подумай, какой незаметный перекос мог бы туда попасть. Например, если все грустные посты ты соберёшь из одного сообщества, а весёлые — из другого, модель выучит не настроение, а стиль конкретного сообщества. Это та же ловушка, что с кошкой в парке, просто на тексте.

Цель упражнения не в том, чтобы поймать ИИ на ошибке и позлорадствовать. Цель — натренировать у себя привычку спрашивать: «а откуда модель это взяла и чьим голосом она сейчас говорит?»

Итоги

  • Предвзятость — это систематический перекос в ответах модели, который пришёл из данных, а не из злого умысла; модель просто эхо того, на чём училась.
  • Перекос протекает через несколько каналов: неравномерный сбор данных, стереотипы в текстах, неравное представительство разных групп и привычки людей-разметчиков.
  • На нашем сквозном примере это видно так: модель может выучить «трава = собака» вместо настоящих признаков, а в текстах — выдавать «программист → он» как самый вероятный вариант.
  • Предвзятость — не то же самое, что галлюцинация или переобучение, и компьютер вовсе не означает «объективно».
  • С ней борются балансировкой и чисткой данных, дообучением на оценках людей (RLHF) и проверками на честность — но полностью не убирают, поэтому последний фильтр всегда ты сам.

Теперь ты умеешь видеть за гладким ответом ИИ его источник — данные с их перекосами. В следующих уроках раздела «Ограничения и риски» мы разберём другие подводные камни: как модель выдаёт уверенную чушь (галлюцинации) и как отличить настоящее от подделки вроде дипфейков. А пока — попробуй задание из мини-практики и поймай свой первый перекос вживую.

Проверьте себя
1. Что такое предвзятость модели?
AСистематический перекос в ответах, который пришёл из данных, на которых модель училась
BСбой, при котором модель перестаёт отвечать на запросы
CСпециально заложенное программистами мнение модели
DСлишком длинный ответ, который не помещается на экране
2. Почему модель в примере решила, что кошка в парке — это собака?
AМодель сломалась и выдала случайный ответ
BВ обучающих данных собаки почти всегда были на улице, и модель выучила «трава = собака»
CКошки и собаки на самом деле неразличимы для компьютера
DКто-то специально пометил эту кошку как собаку
3. Почему модель чаще делает героем истории про программиста парня?
AМодель уверена, что женщины хуже программируют
BТак задумали разработчики ChatGPT
CВ текстах слово «программист» чаще шло рядом с «он», и это самый вероятный вариант для предсказания
DМодель специально избегает упоминания девушек
4. Какое из утверждений верно?
AРаз ответ выдал компьютер, он объективный и справедливый
BЧем больше данных с теми же перекосами, тем меньше предвзятость
CПредвзятость сидит в данных и в том, как их собрали, а не в «убеждениях» модели
DПредвзятость — это то же самое, что галлюцинация
5. Чем предвзятость отличается от галлюцинации?
AЭто одно и то же, просто разные названия
BГаллюцинация — выдуманный факт, а предвзятость — систематический перекос ответов в одну сторону
CПредвзятость бывает только в картинках, а галлюцинация — только в тексте
DГаллюцинация опасна, а предвзятость — нет
6. Что из перечисленного помогает бороться с предвзятостью?
AПросто добавить ещё больше тех же самых данных
BБалансировать и чистить данные, дообучать на оценках людей (RLHF) и тестировать ответы на честность
CЗапретить модели отвечать на любые вопросы про людей
DСделать модель как можно больше по размеру