Дипфейки: как делают и как распознать

Дипфейк — это поддельное фото, видео или голос, которые ИИ собрал так убедительно, что глаз и ухо легко обмануть; в этом уроке разберёмся, как их делают и как не попасться.
Дипфейк — сгенерированные ИИ фото, видео или голос, выдаваемые за настоящие.

Зачем тебе вообще про это знать

Представь: тебе в личку прилетает голосовое от лучшего друга. Голос его, интонация его, даже это его словечко-паразит — всё на месте. Он на нервах говорит, что попал в неприятность и срочно нужно перевести немного денег на чужую карту. Ты бы перевёл? А теперь представь, что друг ничего такого не записывал. Его голос собрала программа из десятка сторис, которые он когда-то выкладывал. Вот это и есть дипфейк в действии.

Дипфейки — это уже не фантастика из фильмов. Сегодня поддельное видео с известным блогером, фейковое фото одноклассника или клонированный голос можно сделать на обычном ноутбуке за вечер. Их используют для розыгрышей и мемов, но всё чаще — для обмана, травли и мошенничества. И самое неприятное: чем дальше, тем труднее отличить подделку от настоящего на глаз.

К концу урока ты будешь понимать, как именно ИИ собирает такие подделки, по каким признакам их пока можно вычислить и, главное, какую привычку выработать, чтобы тебя было сложно обмануть. Это не про паранойю — это про здоровую внимательность, как привычка смотреть по сторонам перед переходом дороги.

Зачем вообще тратить урок на эту тему? Затем, что дипфейки бьют по самому уязвимому месту — по нашему доверию к собственным глазам и ушам. Тысячи лет человек жил по правилу «видел сам — значит, правда». На этом правиле держатся новости, доказательства, репутация людей. Дипфейки ломают его за пару секунд. И тот, кто не в курсе, как они устроены, остаётся беззащитным: он либо верит всему подряд, либо, наоборот, перестаёт верить чему-либо вообще. Понимание устройства подделок возвращает тебе опору — ты снова можешь решать, чему доверять, осознанно, а не на автомате.

Кстати, чтобы спокойно разбираться в дипфейках, держи в голове важную мысль из самого первого урока курса — «Что такое ИИ и чем он не является»: ИИ не «понимает» картинку или голос так, как человек. Он лишь очень хорошо подбирает похожее. Именно из этого свойства и растут дипфейки.

Что такое дипфейк на самом деле

Метафора: художник-имитатор

Вспомни, как кто-то в классе умеет один в один пародировать голос учителя. Он не стал учителем и не понял его мысли — он просто очень много раз слышал, как тот говорит, уловил манеру и теперь воспроизводит её. Если показать такого пародиста незнакомцу по телефону, тот может и поверить, что говорит с настоящим учителем.

Дипфейк-программа — это такой же имитатор, только обученный машиной. Ей показывают сотни фотографий или минуты записи голоса конкретного человека. Она не понимает, кто это и что он чувствует. Она ищет закономерности: как выглядит этот нос под разными углами, как двигаются губы при разных звуках, как звучит этот голос на высоких и низких нотах. А потом по этим закономерностям рисует новое — то, чего на самом деле не было.

Это всё та же задача «кошка или собака», только наоборот

Через весь наш курс идёт сквозной пример: ИИ учится отличать кошку от собаки. Он смотрит на тысячи размеченных фото и выделяет признаки — форму ушей, морду, текстуру шерсти.

Признак — отдельная измеримая характеристика объекта, по которой модель принимает решение, например форма ушей у животного.

Дипфейк решает обратную задачу. Если распознавание идёт от картинки к ответу («это кошка»), то генерация идёт от ответа к картинке («нарисуй кошку, которой не существует»). Та же самая модель, которая научилась видеть, чем кошка отличается от собаки, по сути знает, как выглядит «кошачесть». А раз знает — может и нарисовать новую кошку с нуля.

Особенно красиво это работает в связке двух нейросетей, которые соревнуются друг с другом. Одна (назовём её Художник) рисует фейк. Вторая (Критик) — это по сути наш классификатор кошек-собак, только теперь он отличает «настоящее фото» от «подделки». Художник старается обмануть Критика, Критик учится ловить подделки всё точнее. Они гоняют друг друга тысячи раундов, и в итоге Художник рисует так хорошо, что даже Критик путается. Вот тогда фейк и становится правдоподобным для нас с тобой.

А что с текстом и голосом

Второй наш сквозной пример — предсказание слова во фразе «Кошка пьёт ...». Помнишь: языковая модель предсказывает следующий кусочек по предыдущим.

Языковая модель — модель, которая предсказывает следующее слово в тексте и так умеет генерировать осмысленные ответы.

Голосовой дипфейк работает по той же идее, но вместо слов модель предсказывает крошечные кусочки звука. Послушав твой голос, она выучивает его «почерк» — тембр, скорость, интонации. А дальше, как языковая модель достраивает «Кошка пьёт молоко», голосовая модель достраивает звуковую дорожку: «вот так этот человек произнёс бы такую фразу». Текст подделки часто пишет обычный ChatGPT-подобный помощник, а озвучивает его клон голоса. Получается убедительно, потому что обе модели делают одно и то же — подбирают самое правдоподобное продолжение.

Тут важно поймать одну мысль. Во всех трёх случаях — лицо, видео, голос — ИИ не выдумывает из ниоткуда. Он перемешивает и достраивает то, что уже где-то видел и слышал. Чем больше твоих фото и записей гуляет по сети, тем точнее можно собрать твою подделку. Это не повод срочно удалять все аккаунты, но хороший повод понимать: каждая публичная сторис с твоим голосом — это маленький кирпичик, из которого теоретически можно сложить фейк. Осознанность тут важнее запретов.

Разбираем на примерах

Пример 1: как из набора признаков собирается лицо

Чтобы прочувствовать, что генерация — это сборка из признаков, а не «магия», посмотрим на упрощённую модельку. Лицо опишем несколькими числами-признаками, а потом «дорисуем» недостающее, как это делает генератор.

// Очень упрощённо: лицо — это набор признаков-чисел.
// Настоящие генераторы используют тысячи таких чисел.
const realFace = {
  eyeDistance: 6.3,   // расстояние между глазами, см
  noseLength: 5.1,
  mouthWidth: 5.0,
  skinTone: 7          // условная яркость кожи 0..10
};

// Генератор слегка «подкручивает» признаки,
// чтобы получить новое, несуществующее лицо.
function generateFake(base) {
  const jitter = (v) => +(v + (Math.random() - 0.5)).toFixed(2);
  return {
    eyeDistance: jitter(base.eyeDistance),
    noseLength: jitter(base.noseLength),
    mouthWidth: jitter(base.mouthWidth),
    skinTone: base.skinTone
  };
}

console.log("Настоящее лицо:", JSON.stringify(realFace));
console.log("Сгенерированное лицо похоже, но другое:");
console.log(JSON.stringify(generateFake(realFace)));

Вывод:

Настоящее лицо: {"eyeDistance":6.3,"noseLength":5.1,"mouthWidth":5,"skinTone":7}
Сгенерированное лицо похоже, но другое:
{"eyeDistance":6.41,"noseLength":4.78,"mouthWidth":5.23,"skinTone":7}

Числа на выходе будут каждый раз чуть-чуть разными — мы же добавляем случайность. Главное, что видно: генератор не «понимает» лицо, он берёт признаки и аккуратно их меняет. Настоящие дипфейк-модели делают то же, только с тысячами признаков и куда тоньше — поэтому результат и выглядит как живой человек.

Пример 2: соревнование Художника и Критика

Покажем на простом счётчике, как две сети «подтягивают» друг друга. Критик ставит фейку оценку правдоподобности, Художник учится и поднимает её от раунда к раунду.

// Художник учится обманывать Критика.
// realismScore — насколько фейк похож на правду (0..1).
let realismScore = 0.20;

for (let round = 1; round <= 5; round++) {
  // Критик «штрафует» фейк, но Художник учится и растёт.
  const learn = (1 - realismScore) * 0.4;
  realismScore = +(realismScore + learn).toFixed(2);
  console.log("Раунд " + round + ": правдоподобность фейка = " + realismScore);
}

console.log("Итог: фейк стал почти неотличим от настоящего.");

Вывод:

Раунд 1: правдоподобность фейка = 0.52
Раунд 2: правдоподобность фейка = 0.71
Раунд 3: правдоподобность фейка = 0.83
Раунд 4: правдоподобность фейка = 0.9
Раунд 5: правдоподобность фейка = 0.94
Итог: фейк стал почти неотличим от настоящего.

Видишь, как с каждым раундом правдоподобность ползёт вверх? Это и есть та самая гонка двух сетей. Чем дольше они соревнуются, тем правдоподобнее подделка. Поэтому дипфейки и становятся год от года всё лучше — у моделей просто больше «раундов тренировки» и больше данных.

Пример 3: чек-лист признаков подделки в коде

А теперь полезное: соберём простой «детектор подозрительности». Это не настоящий ИИ-детектор, а наглядный чек-лист — он показывает, на что смотреть тебе самому.

// Условные наблюдения за видео (true = тревожный признак).
const clip = {
  weirdBlinking: true,    // странное или редкое моргание
  blurryEdges: true,      // мутные края лица и волос
  audioOutOfSync: false,  // губы не совпадают со звуком
  flatLighting: true,     // тени на лице не сходятся
  noSource: true          // нет первоисточника, прислали в личку
};

function suspicionLevel(c) {
  const flags = Object.values(c).filter(Boolean).length;
  if (flags >= 4) return "Высокая: очень похоже на дипфейк";
  if (flags >= 2) return "Средняя: проверь источник";
  return "Низкая: но бдительность не помешает";
}

console.log("Тревожных признаков: " + Object.values(clip).filter(Boolean).length);
console.log("Оценка: " + suspicionLevel(clip));

Вывод:

Тревожных признаков: 4
Оценка: Высокая: очень похоже на дипфейк

Логика простая: чем больше странностей собралось в одном ролике, тем выше шанс, что это подделка. Один признак сам по себе мало о чём говорит — мало ли, плохая камера. А вот когда их набирается несколько сразу, стоит насторожиться и проверить, откуда вообще взялось это видео.

Признаки, по которым ловят дипфейки

Соберём в одну таблицу то, на что реально стоит смотреть. Важно: технологии улучшаются, и эти подсказки со временем будут работать хуже. Поэтому в конце мы поговорим о главном признаке, который не устаревает.

Маленький лайфхак: дипфейки чаще всего прокалываются на мелочах, которые модель считает неважными и рисует кое-как. Это переходы между объектами — там, где волосы встречаются с фоном, где очки лежат на носу, где зубы смыкаются при речи. Глаз обычно скользит по таким местам, а вот если специально притормозить и присмотреться к ним, странности всплывают чаще всего. Ещё помогает посмотреть ролик на паузе по кадрам: то, что в движении выглядит гладко, на стоп-кадре нередко рассыпается на артефакты.

Где смотретьЧто выдаёт подделку
Глаза и морганиеЧеловек на видео почти не моргает или моргает странно, рывками.
Края лица, волосы, ушиРазмытая или дрожащая граница лица, «приклеенные» волосы, кривые серьги и зубы.
Свет и тениТени на лице падают не в ту сторону, что фон; кожа слишком гладкая, как пластик.
Губы и звукГубы не попадают в слова, или эмоция в голосе не совпадает с лицом.
ГолосРовная, чуть «металлическая» речь без живых пауз, вздохов и оговорок.
Руки и фонЛишние пальцы, искажённые предметы на фоне, мерцающие детали.

Частые ошибки и подводные камни

Эти ловушки касаются всех, поэтому лучше про них знать заранее.

  1. Думать, что «я-то точно отличу». Самоуверенность — главный друг мошенников. Хорошие дипфейки проходят мимо внимательных взрослых, журналистов и даже экспертов. Если ты считаешь, что тебя не обмануть, ты как раз самая удобная мишень.
  2. Верить, потому что «там же его лицо и голос». Именно лицо и голос ИИ подделывает лучше всего. Знакомое лицо в кадре — это не доказательство, что человек правда это говорил. Это ровно то, что подделка и должна тебе показать.
  3. Полагаться только на визуальные глюки. Кривые пальцы и мутные края — это признаки сегодняшнего дня. Завтрашние модели их исправят. Нельзя строить всю защиту на том, что «у фейков всегда шесть пальцев», — это временно.
  4. Путать дипфейк с галлюцинацией. Это разные вещи. Галлюцинация — это когда модель сама нечаянно выдумывает факт, отвечая на вопрос. Дипфейк — это когда человек намеренно создаёт фальшивое медиа, чтобы обмануть других. Первое — ошибка, второе — обычно умысел.
  5. Паниковать и никому не верить. Обратная крайность тоже вредна. Цель урока — не сделать тебя параноиком, который считает фейком каждое видео, а научить спокойно проверять то, что важно или странно.
Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.

Мини-практика: собери свою привычку проверки

Лучшая защита — не разглядывать пиксели, а выработать рефлекс из трёх вопросов. Запомни их как чек-лист и прогоняй каждое сомнительное медиа.

ВопросЗачем
Откуда это пришло?Личка от незнакомца или репост репоста — повод насторожиться. Ищи первоисточник.
Кто ещё это публикует?Если громкое видео есть только в одном месте и нигде у проверенных СМИ — скорее всего, фейк.
Чего от меня хотят?Срочно перевести деньги, перейти по ссылке, никому не говорить — классические признаки обмана.

Твоё задание: вспомни последний случай, когда тебе переслали «вирусное» видео или голосовое. Прогони его мысленно по трём вопросам из таблицы. Нашёл бы ты первоисточник? Видел бы это в проверенных источниках? Не подталкивали ли тебя к чему-то срочному?

Продвинутый вариант: договорись с близким другом или семьёй о «секретном слове» — простом кодовом слове, которое знаете только вы. Если однажды тебе позвонит «папин голос» и срочно попросит денег, ты спросишь это слово. Настоящий человек ответит, а клон голоса — нет. Это самый надёжный приём против голосовых дипфейков, и он ничего не стоит.

Итоги

  • Дипфейк — это поддельные фото, видео или голос, собранные ИИ так убедительно, что обманывают глаз и ухо.
  • Под капотом это та же работа с признаками, что и в задаче «кошка или собака», только наоборот: модель не распознаёт, а рисует новое по выученным закономерностям.
  • Голосовые и текстовые подделки опираются на предсказание следующего кусочка — ту же идею, что во фразе «Кошка пьёт молоко».
  • Визуальные глюки (моргание, края, свет, пальцы) помогают ловить фейки сегодня, но со временем будут работать всё хуже.
  • Не путай дипфейк (намеренная подделка) с галлюцинацией (нечаянная выдумка модели).
  • Главная защита — не острый глаз, а привычка проверять: откуда пришло, кто ещё публикует, чего от тебя хотят; и секретное слово с близкими против голосовых подделок.

Теперь ты понимаешь, что красивая картинка или знакомый голос — это ещё не доказательство правды. В следующих уроках раздела «Ограничения и риски» мы разберём другие слабые места ИИ и научимся пользоваться им так, чтобы оставаться в безопасности. А пока — попробуй прогнать через свой новый чек-лист любое видео, которое тебе сегодня перешлют.

Проверьте себя
1. Что такое дипфейк?
AСгенерированные ИИ фото, видео или голос, выдаваемые за настоящие
BСбой, при котором видео перестаёт воспроизводиться
CУверенно звучащий, но выдуманный ответ языковой модели
DСпециальный фильтр для улучшения качества старых фотографий
2. Как генерация дипфейка связана с задачей «отличить кошку от собаки»?
AНикак: дипфейки делают вручную в фоторедакторе без всякого ИИ
BЭто обратная задача: вместо распознавания по признакам модель сама рисует новое по выученным признакам
CДипфейк сначала превращает видео в текст, а потом обратно
DДипфейк работает только с животными, но не с людьми
3. Почему дипфейки год от года становятся всё убедительнее?
AЛюди стали менее внимательными
BДве сети — «Художник» и «Критик» — соревнуются всё больше раундов на всё больших данных
CЭкраны телефонов стали ярче
DИИ наконец-то начал по-настоящему понимать людей
4. Чем дипфейк отличается от галлюцинации модели?
AНичем, это два слова для одного и того же
BДипфейк — это намеренно созданная фальшивка, а галлюцинация — нечаянная выдумка модели в ответе
CГаллюцинация бывает только в видео, а дипфейк только в тексте
DДипфейк всегда правдив, а галлюцинация всегда ложна
5. Почему опасно полагаться только на визуальные глюки вроде кривых пальцев?
AГлюки видны только на больших экранах
BЭти признаки временны: новые модели быстро учатся их убирать
CКривые пальцы бывают и у настоящих людей всегда
DГлюки появляются только в чёрно-белом видео
6. Какой приём лучше всего защищает от голосового дипфейка близкого человека?
AВнимательно вслушиваться, нет ли в голосе металлических ноток
BДоговориться о секретном слове, которое знаете только вы, и спросить его при срочной просьбе
CВсегда перезванивать на любой незнакомый номер
DНикогда не отвечать на голосовые сообщения