Галлюцинации: почему ИИ уверенно врёт

ChatGPT может сказать тебе полную чушь — и сделает это таким уверенным тоном, что ты поверишь. Это называется галлюцинация, и сейчас ты поймёшь, откуда она берётся.

Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.

Представь: ты спрашиваешь у ChatGPT, кто написал твою любимую книгу, а он называет автора, которого не существует. Или просишь список научных статей — и он выдаёт пять штук с настоящими именами учёных, красивыми названиями и номерами страниц. Ты идёшь искать эти статьи — а их нет. Никогда не было. Модель их придумала. И что самое жуткое — придумала с тем же спокойным, уверенным тоном, каким говорила бы чистую правду.

К концу этого урока ты будешь понимать, почему так происходит (спойлер: это не баг, а прямое следствие того, как модель устроена), и у тебя будет набор приёмов, чтобы не попасться. Поехали.

Зачем тебе вообще это знать

Сегодня ИИ помогает делать домашку, писать сообщения, искать факты, объяснять непонятное. Это правда удобно. Но если ты вставишь в реферат выдуманную дату или сошлёшься на несуществующий закон, потому что «так сказал ChatGPT», — отвечать придётся тебе, а не нейросети.

Здоровый скептицизм — это не «ИИ плохой, не пользуйся». Это «ИИ — мощный инструмент, но проверяй важное». Точно так же ты не веришь каждому посту в соцсетях и не пересылаешь друзьям мем с «учёные доказали», не глянув, откуда он. С ИИ — та же привычка.

И ещё важный момент: галлюцинируют все языковые модели — и ChatGPT, и его конкуренты, и крошечные модели, и гигантские. Это не «болезнь» конкретного приложения, которую через год починят обновлением. Это свойство самого подхода. Большие модели галлюцинируют реже и аккуратнее, но совсем от этого не избавились ни разу. Поэтому навык проверять — это не временный костыль, а часть культуры работы с ИИ, как умение гуглить или отличать рекламу от настоящей новости.

Подумай о масштабе: миллионы школьников и студентов уже спрашивают у ИИ ответы на контрольные, темы для проектов, объяснения теорем. Если хотя бы один из десяти ответов содержит уверенно поданную выдумку, а проверять никто не умеет, в головы попадает много мусора. Уметь ловить галлюцинации — значит быть среди тех, кого ИИ делает умнее, а не глупее.

Откуда берётся враньё: машина, которая угадывает слово

Чтобы понять галлюцинации, вспомни, чем на самом деле занята языковая модель. Мы это подробно разбирали в уроке «Почему предсказание слова даёт текст»: модель не «знает факты» и не «думает» — она предсказывает следующий токен, кусочек текста, который статистически лучше всего продолжает предыдущие.

Вернёмся к нашему сквозному примеру про фразу «Кошка пьёт ...». Модель видела в обучающих текстах миллионы раз, что после «Кошка пьёт» идёт «молоко». Поэтому она уверенно подставит «молоко». Она не проверяла, пьёт ли конкретная кошка молоко прямо сейчас. Она просто знает: такое продолжение звучит правдоподобно.

Языковая модель — это не библиотека фактов. Это машина правдоподобия. Её задача — чтобы текст звучал гладко и естественно, а не чтобы он был правдой.

Метафора: ученик, который не учил, но блефует

Представь одноклассника, который не готовился к устному ответу, но боится молчать. Учитель спрашивает: «В каком году была подписана такая-то грамота?» Парень не знает. Но молчать стыдно, и он на голубом глазу выдаёт: «В 1547-м!» — таким тоном, будто это очевидно. Иногда угадывает. Чаще нет. Но звучит-то уверенно!

Языковая модель ведёт себя похоже, только без стыда и без блефа в человеческом смысле. У неё нет кнопки «я не знаю» по умолчанию. Её всегда просят продолжить текст — и она всегда продолжает, самым правдоподобным способом. Если в её «памяти» (а точнее, в весах) нет точного факта, она достроит ответ из похожих кусочков. Получится гладко, грамматически верно и совершенно ложно.

Тут важно поймать одну тонкость. Когда наш одноклассник блефует, он знает, что блефует. У него внутри есть честное ощущение «я не уверен». А у модели такого внутреннего голоса нет вообще. Она не «решает соврать» — она просто делает ровно то, чему её учили: подбирает следующий токен. Для неё нет разницы между «я уверен» и «я фантазирую» — есть только разные числа вероятностей, которые она даже не обязана показывать наружу. Поэтому говорить «ИИ обманывает» не совсем точно: обман предполагает намерение, а у модели его нет. Она честно делает свою работу — а работа у неё «звучать правдоподобно», а не «говорить правду». Эти две вещи совпадают часто, но далеко не всегда.

Ещё одна причина галлюцинаций — пробелы и противоречия в данных. Модель училась на текстах из интернета, а там полно ошибок, устаревших фактов, шуток, выдумок фанатов и просто чьих-то заблуждений. Если про какую-то тему в сети написано мало и разнобойно, модели неоткуда взять надёжный паттерн. Она склеит ответ из обрывков — и чем меньше она «видела» по теме, тем смелее фантазирует. Вот почему про популярное (столица Франции, сюжет «Гарри Поттера») модель почти не ошибается, а про что-то узкое и редкое легко начинает сочинять.

Разбор на примерах: где именно ломается правда

Пример 1. Несуществующая цитата

Ты просишь: «Дай точную цитату писателя про дружбу». Модель видела тысячи цитат про дружбу и тысячу раз — фразы вида «как сказал имя писателя: ...». Она складывает правдоподобную цитату в правдоподобном стиле и приписывает её реальному автору.

Давай покажем саму логику «правдоподобного продолжения» на маленьком наглядном примере. Это не настоящая нейросеть — просто игрушечная модель, которая выбирает самое частое продолжение из того, что «видела».

// Игрушечная "память" модели: что чаще шло после фразы
const память = {
  "Кошка пьёт": { "молоко": 90, "воду": 9, "сок": 1 },
  "Цитата про дружбу от": { "известного писателя": 70, "философа": 30 }
};

// Модель всегда выбирает самое вероятное продолжение
function предсказать(фраза) {
  const варианты = память[фраза];
  let лучший = null, макс = -1;
  for (const слово in варианты) {
    if (варианты[слово] > макс) { макс = варианты[слово]; лучший = слово; }
  }
  return лучший;
}

console.log("Кошка пьёт " + предсказать("Кошка пьёт"));
console.log("Цитата про дружбу от " + предсказать("Цитата про дружбу от"));

Вывод:

Кошка пьёт молоко
Цитата про дружбу от известного писателя

Видишь идею? Модель выбрала молоко, потому что это самое частое продолжение, — и это случайно оказалось правдой. Но точно так же она выберет «известного писателя» и достроит цитату, которой никогда не было. Один и тот же механизм даёт и верный, и выдуманный ответ. Модель их не различает — для неё оба просто «правдоподобны».

Пример 2. Уверенность не равна правоте

Самое коварное — что модель не показывает, насколько она «уверена». Внутри у неё для каждого варианта есть число — насколько он вероятен. Но в ответе тебе она пишет всё одинаково спокойно: и то, что встречала миллион раз, и то, что наскребла по крохам.

// У модели внутри есть вероятности, но наружу она их не показывает
const ответы = [
  { текст: "Кошка пьёт молоко",        уверенность: 0.92 },
  { текст: "Эту книгу написал автор X", уверенность: 0.18 }
];

for (const о of ответы) {
  // Что видит пользователь — просто текст, без процентов
  console.log("Модель отвечает: " + о.текст);
  // Что было бы честнее показать
  const честно = о.уверенность < 0.5 ? " (а на самом деле она почти угадывает!)" : "";
  console.log("  внутренняя уверенность: " + о.уверенность + честно);
}

Вывод:

Модель отвечает: Кошка пьёт молоко
  внутренняя уверенность: 0.92
Модель отвечает: Эту книгу написал автор X
  внутренняя уверенность: 0.18 (а на самом деле она почти угадывает!)

Оба ответа на экране выглядят одинаково твёрдо. Но второй — почти случайная догадка. Тон ответа ничего не говорит о его правдивости. Запомни это намертво.

Пример 3. Та же история с кошкой и собакой

Наш второй сквозной пример — «отличить кошку от собаки». Модель распознавания тоже может галлюцинировать, только по-своему. Покажи ей размытое фото енота — и она не скажет «я такого не знаю». Она обучена выдавать ответ из тех категорий, что знает, и уверенно заявит: «Это кошка, 80%». Потому что у енота пушистая морда и стоячие уши — признаки, похожие на кошачьи.

Это та же болезнь: модель всегда выбирает ближайший знакомый вариант, даже когда правильного ответа в её мире просто нет. Она не умеет сказать «это что-то новое» — её этому не учили.

Пример 4. Складные числа, которых не было

Спроси у модели что-нибудь вроде «сколько голов забил такой-то игрок в таком-то сезоне» или «какая численность населения у небольшого городка». Очень часто она выдаст конкретное число — 17 голов, 42 тысячи человек. Звучит точно, по-деловому, с цифрой. И именно эта точность усыпляет бдительность: кажется, что если названа цифра, значит её откуда-то взяли.

На самом деле модель просто подобрала правдоподобное число — такое, какое обычно стоит в подобных предложениях. Это снова продолжение фразы «Кошка пьёт ...», только вместо «молоко» подставляется «17». Цифры модель галлюцинирует особенно охотно и особенно убедительно, потому что в обучающих текстах рядом с похожими вопросами всегда стояли какие-то числа. Запомни правило: чем точнее и конкретнее звучит факт, тем тщательнее его стоит перепроверить, а не наоборот.

Частые ошибки и подводные камни

Ошибка новичка	Почему это опасно
Верить цифрам, датам и именам «на слово»	Именно факты-детали модель чаще всего и придумывает: тут нужна точность, а она выдаёт правдоподобие.
Просить ссылки на источники у самой модели	Если у неё нет доступа к интернету, она сгенерирует ссылки, которые выглядят настоящими, но ведут в никуда.
Думать «уверенный тон = правда»	Тон вообще не связан с правотой. Модель одинаково спокойно говорит и факт, и выдумку.
Спрашивать про очень свежие события	Модель обучалась до какой-то даты. О том, что было после, она ничего не знает — но всё равно попробует ответить и насочиняет.
Задавать вопрос с ложной предпосылкой	Если спросить «почему у пауков шесть ног?», модель может принять ложь за правду и начать её обосновывать.

Последний пункт особенно коварный. Модель склонна соглашаться с тобой и подхватывать твою формулировку — это называют подхалимством. Спросишь уверенно неправильное — получишь уверенно неправильный ответ. А если ты ещё и надавишь («ты ошибаешься, на самом деле было вот так»), модель часто извинится и согласится с твоей версией, даже если изначально была права. Не воспринимай её «извини, ты прав» как доказательство — это просто ещё одно правдоподобное продолжение разговора.

Есть и обратная ловушка: люди иногда специально проверяют модель, повторяя один и тот же вопрос несколько раз. Если ответы отличаются — это уже сигнал, что модель не уверена. Но даже когда она трижды повторяет одно и то же, это всё ещё не гарантия правды: устойчивая выдумка остаётся выдумкой. Стабильность ответа говорит лишь о том, что паттерн в данных был сильным, а не о том, что он верный.

Как защититься: твой набор приёмов

Хорошая новость: галлюцинации легко обезвредить, если выработать привычки.

Проверяй факты в других источниках. Даты, имена, цифры, цитаты — гугли отдельно. Если ИИ дал ссылку, открой её сам, а не верь, что она существует.
Не задавай вопрос с готовой ложью внутри. Вместо «почему X произошло в 1800 году?» спроси «когда произошло X и произошло ли вообще?».
Проси показать неуверенность. Добавь в промпт: «Если не уверен — так и скажи, не выдумывай». Это правда снижает количество выдумок (об этом будет в уроках про RLHF и промпты).
Используй ИИ там, где правдоподобие = польза. Накидать идеи, переформулировать текст, объяснить понятие — тут галлюцинации почти не вредят. А вот точные факты — перепроверяй.
Сомневайся в круглых и красивых ответах. Слишком гладкий список с идеальными деталями — повод насторожиться, а не расслабиться.

Мини-практика: поймай галлюцинацию

Это задание без кода — на скептицизм. Открой любой доступный тебе ИИ-чат и проведи маленькое расследование.

Спроси про узкую, малоизвестную тему, в которой ты разбираешься: про правила своей любимой игры, сюжет нишевого аниме, состав не самой популярной группы. Где модель видела мало данных — там она чаще фантазирует.
Задай вопрос-ловушку с ложной предпосылкой. Например, спроси про событие, которого не было, как про реальное. Посмотри: модель поправит тебя или подхватит выдумку?
Попроси три источника или цитаты по теме. Затем честно проверь хотя бы один из них в поиске. Существует ли он?
Запиши, что именно модель выдумала и каким тоном. Скорее всего, выдумка будет звучать так же уверенно, как и правда, — вот ты и увидел галлюцинацию вживую.

Сделай это хотя бы раз — и ты уже не будешь слепо доверять ни одному ответу ИИ. Это и есть здоровый скептицизм в действии.

Итоги

Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.
Это не поломка, а прямое следствие того, что модель предсказывает правдоподобный текст, а не хранит проверенные факты.
У модели по умолчанию нет «я не знаю»: ей всегда есть что продолжить, поэтому она достраивает ответ из похожих кусочков.
Уверенный тон не равен правоте — внутреннюю неуверенность модель наружу не показывает.
Защита простая: перепроверяй факты, не подсовывай ложные предпосылки, проси честное «не знаю» и используй ИИ там, где правдоподобие полезно.

Дальше в разделе про ограничения и риски мы разберём другие подводные камни: предвзятость в данных, дипфейки и то, как ИИ может незаметно искажать картину мира. Галлюцинации — только первый звоночек. Идём дальше — и становимся ещё умнее своего инструмента.