Галлюцинации: почему модель уверенно ошибается
LLM может уверенно сообщить несуществующий факт. Это не баг, а прямое следствие того, как она устроена. Разберём механизм галлюцинаций честно.
Галлюцинация — это сгенерированный моделью правдоподобный, но фактически неверный или выдуманный ответ, поданный с тем же уверенным тоном, что и верный.
Корень проблемы: правдоподобие, а не истина
Вспомним главное: модель обучена выдавать вероятное продолжение текста, а не истинное утверждение. У неё нет встроенного механизма «проверить факт в реальности» — есть лишь статистика того, какие тексты встречались. Если на вопрос статистически «напрашивается» гладкий ответ определённой формы, модель его и сгенерирует — независимо от того, правда это или нет. Галлюцинация — это правдоподобный по форме, но ложный по содержанию текст.
Почему уверенным тоном
Модель не хранит отдельную «степень уверенности в факте». Она лишь продолжает текст в том стиле, что видела. А большинство утверждений в обучающих данных написаны уверенно. Поэтому и выдуманное, и настоящее модель подаёт одинаково напористо. Отсюда коварство: по тону ответа невозможно отличить факт от вымысла.
Когда галлюцинации особенно вероятны
| Ситуация | Почему рискованно |
| Редкие, узкие факты | в данных мало примеров — модель «достраивает» правдоподобное |
| Точные числа, даты, цитаты | модель не помнит точно, но генерирует похоже выглядящее |
| Свежие события | их не было в обучающих данных (есть дата отсечения знаний) |
| Несуществующие сущности | на вопрос о выдуманном модель часто «подыгрывает», а не отрицает |
| Ссылки и источники | модель может сгенерировать правдоподобный, но несуществующий URL/DOI |
Почему это нельзя «просто исправить»
Галлюцинации — не отдельный сломанный модуль, который можно починить. Они вытекают из самой природы модели: она статистический генератор текста, а не база проверенных фактов. Выравнивание (RLHF) снижает частоту выдумок, приучая чаще признавать незнание, но полностью убрать их при таком устройстве невозможно. Это фундаментальное ограничение, а не временный дефект.
Как снижать риск на практике
- RAG (подтягивание фактов). Дать модели в контекст реальные документы и попросить отвечать по ним — резко снижает выдумки (об этом в финале курса).
- Просить источники и проверять их. И помнить, что сами ссылки модель тоже может выдумать.
- Перепроверять важные факты, числа и даты во внешних источниках.
- Формулировать запрос так, чтобы поощрять «не знаю», а не вынуждать выдумывать.
Главный вывод
LLM — мощный помощник, но не источник истины. Относитесь к её ответам как к черновику знающего, но иногда фантазирующего коллеги: блестящие идеи и формулировки, которые стоит сверять с реальностью, особенно когда цена ошибки высока.
Итог
- Модель оптимизирована на правдоподобие текста, а не на истинность — отсюда галлюцинации.
- Уверенный тон выдумок объясняется тем, что данные написаны уверенно; по тону факт от вымысла не отличить.
- Риск выше для редких фактов, точных чисел/дат, свежих событий и источников.
- RAG, проверка источников и осторожные формулировки снижают, но не устраняют проблему.