Предвзятость и откуда она берётся
Модель не злая и не добрая — она просто зеркало тех текстов, на которых училась, и если в них были перекосы, она их повторит, причём очень уверенно.
Предвзятость — это когда модель систематически выдаёт несправедливые или однобокие ответы не потому, что её так задумали, а потому, что такие перекосы были в данных, на которых она училась.
Зачем тебе вообще про это знать
Представь: ты просишь ИИ придумать историю про гениального программиста. Запускаешь несколько раз — и почти всегда герой получается парнем. Просишь нарисовать «врача» — выходит мужчина в халате, а «медсестру» — женщина. Ты ведь не просил именно так. Модель сама достроила. Откуда она это взяла?
Или другой пример, ближе к нашему сквозному сюжету про кошек и собак. Допустим, ты собрал картинки для обучения модели, которая отличает кошку от собаки. Но так вышло, что почти все фото кошек ты снял дома на диване, а почти все фото собак — на улице в парке. Модель честно поучится... и решит, что главный признак собаки — это трава на заднем плане. Покажи ей кошку в парке — и она радостно скажет «собака». Это и есть предвзятость: модель уцепилась не за то, за что надо, потому что в данных был незаметный перекос.
К концу урока ты будешь понимать, почему даже самая большая и умная модель вроде ChatGPT может выдать стереотип или несправедливый ответ, откуда это берётся и что с этим делают инженеры. И главное — научишься замечать такие перекосы сам, чтобы не принимать ответ ИИ за истину просто потому, что он звучит гладко.
Что такое предвзятость на самом деле
Метафора: ИИ — это эхо данных
Вспомни, как работает зубрёжка перед экзаменом. Если ты готовился только по одному учебнику, ты будешь отвечать ровно так, как написано в нём, со всеми его примерами и даже опечатками. Если в учебнике была ошибка — ты её повторишь, и повторишь уверенно, потому что больше тебе сравнивать не с чем.
Модель устроена похоже, только её «учебник» — это горы текстов и картинок из интернета. В прошлом уроке про предобучение на интернете мы разбирали, что большую языковую модель кормят гигантским объёмом текстов, чтобы она научилась предсказывать следующее слово. Так вот: модель впитывает не только грамматику и факты, но и все привычки, перекосы и стереотипы, которые в этих текстах были. Она не отличает «как принято говорить» от «как справедливо». Для неё это просто частоты слов рядом друг с другом.
Данные — примеры, на которых учится модель: картинки, тексты, числа с правильными ответами или без них.
Поэтому правильнее думать о предвзятости не как о «характере» модели, а как об эхе. Что в данных громче звучало — то модель и повторит. Если в текстах слово «программист» в миллион раз чаще стояло рядом со словом «он», чем со словом «она», модель просто выучит эту связь как самую вероятную.
Откуда перекос попадает в данные
Главное, что нужно понять: предвзятость почти никогда не закладывают специально. Она протекает в модель сама, по нескольким каналам. Вот основные.
| Канал | Что происходит | Пример |
| Перекос в сборе | Каких-то примеров в данных намного больше, чем других | Почти все фото кошек — дома, почти все фото собак — на улице |
| Стереотипы в текстах | Люди веками писали с предубеждениями, и это осело в текстах | «Сильный» чаще стоит рядом с «мужчина», «нежная» — рядом с «женщина» |
| Кто писал тексты | В интернете одни языки, страны и группы представлены гуще других | Ответы про мировую историю незаметно смещены к взгляду богатых стран |
| Что разметили люди | Метки ставят люди, а у людей свои привычки и устали к вечеру | Один разметчик считает шутку «обидной», другой — «нормальной» |
Метка — правильный ответ для обучающего примера, например слово «кошка» рядом с фотографией.
Заметь: ни в одной строке таблицы нет злого умысла. Просто мир, отражённый в данных, сам по себе неровный, а модель честно копирует эту неровность.
Разбираем на примерах
Пример 1: кошка в парке (перекос в сборе данных)
Вернёмся к нашему сквозному примеру. Помнишь, в первых уроках мы говорили, что модель отличает кошку от собаки по признакам: форма ушей, морда, размер? В идеале так и должно быть. Но модель учится не на наших пожеланиях, а на том, что реально есть в данных.
Признак — отдельная измеримая характеристика объекта, по которой модель принимает решение, например форма ушей у животного.
Разберём по шагам, как рождается перекос:
- Ты собрал 1000 фото: 500 кошек, 500 собак.
- Случайно вышло, что 480 из 500 кошек сфотканы в комнате, а 470 из 500 собак — на улице.
- Модель ищет самый простой признак, который делит фото на две кучи. И «трава на фоне» делит их почти идеально — проще, чем разбираться в форме ушей.
- Модель решает: трава → собака, диван → кошка. На обучающих данных она почти не ошибается, и все радуются.
- Ты приносишь фото кошки, которая гуляет по газону. Модель уверенно говорит «собака».
Это классическая предвзятость от перекоса в сборе. Модель не глупая — она нашла рабочую закономерность. Просто эта закономерность была не про животных, а про то, где ты любишь фотографировать. Виноваты данные, а не модель.
Пример 2: «гениальный программист» (стереотипы в текстах)
Теперь текстовый сюжет. Вспомни наш второй сквозной пример — как модель предсказывает следующее слово во фразе вроде «Кошка пьёт ...». Тот же самый механизм работает и здесь, только на словах про людей.
Модель видела в текстах миллионы предложений. Среди них слово «программист» гораздо чаще шло вместе с «он», «парень», «он написал код». Сочетания «она — гениальный программист» в данных было намного меньше — не потому что таких людей нет, а потому что так исторически меньше писали.
Что делает языковая модель, когда ты просишь её придумать историю про гениального программиста? Она предсказывает самые вероятные следующие слова. А самое вероятное по её данным — это «он». Получается, модель не «считает», что женщины хуже программируют. Она просто механически выдаёт самый частый вариант из того, что видела.
Языковая модель — модель, которая предсказывает следующее слово в тексте и так умеет генерировать осмысленные ответы.
Опасность тут в том, что ответ звучит абсолютно нормально и гладко. Никакой ошибки в грамматике, никакого сбоя. Поэтому перекос легко не заметить — он маскируется под «обычный текст».
Пример 3: чей это взгляд (кто писал данные)
Спроси модель про какой-нибудь праздник, традиционную еду или «нормальный распорядок дня» — и часто ответ будет смещён к тому, как живут в странах, где много контента в интернете. Если в данных по-английски написано в сотни раз больше текстов, чем на каком-нибудь редком языке, модель будет лучше «знать» культуру первых и хуже — вторых.
Это не значит, что модель кого-то не уважает. Это значит, что одних голосов в её «учебнике» было слышно громко, а других почти не было. И когда ты задаёшь общий вопрос, модель отвечает с позиции громкого большинства, даже если ты сам из тихого меньшинства. Полезно держать это в голове, особенно когда спрашиваешь что-то про культуру, историю или «как принято».
Частые ошибки и заблуждения
Вокруг предвзятости ИИ много путаницы. Разберём ловушки, в которые попадают почти все новички.
- «Раз это компьютер, значит, он объективный». Это самое опасное заблуждение. Кажется, что машина считает честно, без эмоций. Но модель не считает истину — она повторяет статистику данных. Цифры на выходе не делают ответ справедливым.
- Путать предвзятость с галлюцинацией. Галлюцинация — это когда модель выдумала факт, которого нет. Предвзятость — когда факты вроде верные, но ответ систематически перекошен в одну сторону. Это разные проблемы, хотя обе про доверие к ответу.
- Думать, что больше данных = меньше предвзятости. Если ты добавишь ещё миллион текстов с теми же перекосами, модель просто сильнее в них уверится. Важно не количество данных, а их разнообразие и сбалансированность.
- Путать предвзятость с переобучением. Переобучение — это когда модель зазубрила конкретные обучающие примеры и плохо работает на новых. Предвзятость остаётся даже у хорошо обученной модели, потому что сидит в самих данных, а не в зубрёжке.
- Винить модель, а не данные. Фраза «ИИ — расист/сексист» звучит цепляюще, но сбивает с толку. У модели нет убеждений. Перекос пришёл из данных и из того, кто и как их собрал. Чинить надо данные и процесс, а не ругать программу.
Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.
Переобучение — ситуация, когда модель зазубрила обучающие примеры и плохо работает на новых данных.
Как с предвзятостью борются
Хорошая новость: про эту проблему знают, и с ней целенаправленно работают. Полностью убрать предвзятость нельзя — мир неровный, и данные тоже. Но её можно сильно уменьшить. Вот главные приёмы простыми словами.
| Приём | Идея на пальцах |
| Балансировать данные | Специально добавить недостающих примеров: кошек на улице, историй про девушек-программисток |
| Чистить данные | Выкидывать откровенно токсичные и стереотипные тексты ещё до обучения |
| Дообучение на оценках людей (RLHF) | Люди оценивают ответы, и модель учится не выдавать обидные или однобокие варианты |
| Тестировать на честность | Прогонять модель через специальные проверки: «а не перекошены ли ответы про разные группы?» |
RLHF — дообучение модели на оценках людей, чтобы её ответы стали полезными, честными и безопасными.
Важно понимать: даже после всех этих усилий идеальной модели не существует. Поэтому последний и самый надёжный фильтр — это ты сам. Критическое отношение к ответу ИИ — не вредность, а нормальная гигиена.
Мини-практика: поймай перекос сам
Теория ничего не стоит, пока ты не пощупал её руками. Вот задание, которое можно сделать с любым доступным ИИ-чатом (или хотя бы продумать на бумаге, если доступа нет).
- Попроси ИИ несколько раз подряд: «Придумай короткую историю про успешного шахматиста». Запиши, кто получается героем каждый раз — парень или девушка. Есть ли перекос?
- Попроси описать «типичный завтрак». Чей это завтрак, из какой страны? Совпадает ли с твоим?
- Вернись к нашему сквозному примеру. Представь, что ты собираешь данные для модели «кошка против собаки». Напиши список из трёх правил, как собрать фото так, чтобы в данные не протёк перекос вроде «трава = собака».
Продвинутый вариант: придумай свою задачу классификации (например, «определить по тексту, грустный пост или весёлый») и подумай, какой незаметный перекос мог бы туда попасть. Например, если все грустные посты ты соберёшь из одного сообщества, а весёлые — из другого, модель выучит не настроение, а стиль конкретного сообщества. Это та же ловушка, что с кошкой в парке, просто на тексте.
Цель упражнения не в том, чтобы поймать ИИ на ошибке и позлорадствовать. Цель — натренировать у себя привычку спрашивать: «а откуда модель это взяла и чьим голосом она сейчас говорит?»
Итоги
- Предвзятость — это систематический перекос в ответах модели, который пришёл из данных, а не из злого умысла; модель просто эхо того, на чём училась.
- Перекос протекает через несколько каналов: неравномерный сбор данных, стереотипы в текстах, неравное представительство разных групп и привычки людей-разметчиков.
- На нашем сквозном примере это видно так: модель может выучить «трава = собака» вместо настоящих признаков, а в текстах — выдавать «программист → он» как самый вероятный вариант.
- Предвзятость — не то же самое, что галлюцинация или переобучение, и компьютер вовсе не означает «объективно».
- С ней борются балансировкой и чисткой данных, дообучением на оценках людей (RLHF) и проверками на честность — но полностью не убирают, поэтому последний фильтр всегда ты сам.
Теперь ты умеешь видеть за гладким ответом ИИ его источник — данные с их перекосами. В следующих уроках раздела «Ограничения и риски» мы разберём другие подводные камни: как модель выдаёт уверенную чушь (галлюцинации) и как отличить настоящее от подделки вроде дипфейков. А пока — попробуй задание из мини-практики и поймай свой первый перекос вживую.