Голос, музыка и видео от ИИ

Ты слышал «голосовое сообщение» от человека, которого не существует, подпевал треку, который никто не сочинял, и смотрел видео, где актёр говорит то, чего не говорил. Всё это сделал ИИ — и сейчас ты разберёшься, как.

Главная мысль урока: голос, музыка и видео для ИИ — это та же задача предсказания, что и текст. Только вместо «какое слово идёт дальше» модель угадывает «какой кусочек звука или картинки идёт дальше». Идея одна, меняется лишь то, что мы режем на токены.

Зачем тебе это понимать

В прошлом уроке про генерацию картинок ты уже видел: ИИ умеет не только разбирать готовое, но и создавать новое. Картинка — это статичный кадр. А теперь представь, что к нему добавили звук и движение. Получается, что нейросети сегодня умеют синтезировать голос диктора, сочинять фоновую музыку для твоего ролика и оживлять фотографию так, что человек на ней моргает и говорит.

Это не магия и не «ИИ стал разумным». Это та же самая механика предсказания, которую ты изучал на сквозных примерах курса — «кошка против собаки» и «Кошка пьёт …». Просто теперь модель предсказывает не следующее слово, а следующий кусочек звуковой волны или следующий кадр. К концу урока ты будешь понимать, откуда берётся синтетический голос, почему ИИ-музыка звучит «гладко, но пустовато», как делают говорящие видео — и почему всё это напрямую связано с дипфейками и этикой.

Главная идея: всё режется на токены

Вспомни сквозной текстовый пример курса. Фразу «Кошка пьёт …» модель не видит целиком — она режет её на токены (кусочки текста) и угадывает, какой токен идёт следующим: скорее всего «молоко».

Токен — кусочек текста (слово или его часть), которым модель оперирует вместо целых предложений.

Со звуком и видео фокус ровно тот же, только кусочки другие:

Что генерируемНа что режемЧто предсказывает модель
Тексттокены-словаследующее слово
Голос и музыкакрошечные кусочки звуковой волны (аудио-токены)следующий кусочек звука
Видеокадры и их фрагментыследующий кадр / следующий участок кадра

Метафора для звука простая. Представь, что песня — это очень длинная фраза, только «слова» в ней — это микро-кусочки звука длиной в сотую долю секунды. Модель учится так же, как на тексте: ей дают миллионы часов записей, она замечает, какие кусочки обычно идут друг за другом, и потом достраивает продолжение. Если в тексте после «Кошка пьёт» вероятно «молоко», то в записи голоса после звука «к-о-ш…» вероятно идёт «…ка». Одна и та же зубрёжка статистики, только материал другой.

Откуда модель знает, как звучит именно «кошка»

Тут возвращается ещё один знакомый термин — эмбеддинг.

Эмбеддинг — представление слова или объекта в виде точки в многомерном пространстве, где похожие смыслы лежат рядом.

В голосовом ИИ эмбеддинги хранят не только смысл слов, но и «характер звучания»: тембр голоса, скорость, интонацию. Голос конкретного диктора — это точка в пространстве голосов. Радостная интонация и грустная — это сдвиг в этом пространстве, как «кошка» и «котёнок» лежат рядом в текстовых эмбеддингах. Поэтому современные модели могут произнести твою фразу «весело» или «шёпотом»: они просто берут нужную точку в пространстве интонаций.

Разбор на примерах

Пример 1. Синтез голоса (text-to-speech) по шагам

Синтез речи — это превращение текста в голос. Раньше это делали топорно: записывали человека, нарезали слоги и склеивали. Звучало как робот из старых игр. Сегодня нейросеть генерирует звук целиком, и вот её путь от текста до волны:

  1. Текст → токены. Фразу «Кошка пьёт молоко» модель режет на привычные текстовые токены.
  2. Токены → звуковые признаки. Нейросеть-трансформер предсказывает, как должна звучать каждая часть: где ударение, где пауза, какая высота тона.
  3. Признаки → волна. Вторая модель (вокодер) достраивает из этих признаков реальную звуковую волну — то, что слышит твоё ухо.
  4. Голос-«приправа». Отдельно подаётся эмбеддинг голоса: чей тембр использовать. Поменяешь точку в пространстве голосов — и та же фраза зазвучит другим человеком.

Чтобы идея «модель предсказывает следующий кусочек» стала осязаемой, давай смоделируем её на нашем сквозном текстовом примере. Код ниже не синтезирует звук по-настоящему — браузер так не умеет, — но он показывает ту же логику: по статистике выбрать самое вероятное продолжение.

// Игрушечная "модель": какие кусочки обычно идут после данного.
// Это та же идея, что и в предсказании звука или слова.
const cep = {
  "Кошка":  { "пьёт": 5, "спит": 2, "бежит": 1 },
  "пьёт":   { "молоко": 6, "воду": 3, "чай": 1 },
  "молоко": { ".": 9, "из": 1 }
};

function predictNext(token) {
  const options = cep[token];
  if (!options) return null;
  // Берём самый вероятный следующий кусочек (как делает модель по умолчанию).
  let best = null, bestScore = -1;
  for (const next in options) {
    if (options[next] > bestScore) { bestScore = options[next]; best = next; }
  }
  return best;
}

// Достраиваем фразу с самого начала, шаг за шагом.
let token = "Кошка";
let phrase = [token];
for (let i = 0; i < 3; i++) {
  const next = predictNext(token);
  if (!next) break;
  phrase.push(next);
  token = next;
}
console.log(phrase.join(" "));

Вывод:

Кошка пьёт молоко .

Видишь? Модель синтеза голоса делает по сути то же самое, только её «словарь продолжений» — это не слова, а кусочки звуковой волны, и в нём не три варианта, а миллиарды, и взвешены они обучением на тысячах часов речи. Но принцип «возьми самое вероятное продолжение» — один в один.

Пример 2. Клонирование голоса по нескольким секундам

Самое впечатляющее (и тревожное) умение — клонирование голоса. Модели достаточно 10–30 секунд записи, чтобы вычислить эмбеддинг твоего голоса: твой тембр, манеру тянуть гласные, скорость. Дальше она может прочитать этим голосом любой новый текст, которого ты никогда не произносил.

Как это работает по шагам:

  • Шаг 1. Берётся короткая запись-образец и превращается в эмбеддинг голоса — ту самую «точку в пространстве голосов».
  • Шаг 2. Берётся новый текст, который надо произнести.
  • Шаг 3. Модель синтеза генерирует звук этого текста, «приправляя» его эмбеддингом из шага 1.
  • Результат. Новый голос звучит как образец, хотя этих слов человек не говорил.

Полезное применение: озвучка аудиокниг, голосовые ассистенты, восстановление голоса людям, потерявшим речь после болезни. Опасное применение: телефонные мошенники, подделывающие голос родственника, чтобы выпросить деньги. Один и тот же инструмент — и спасение, и оружие. Это и есть мостик к дипфейкам, до которого мы дойдём ниже.

Пример 3. Генерация музыки

Музыкальный ИИ устроен как «языковая модель для звука». Помнишь определение?

Языковая модель — модель, которая предсказывает следующее слово в тексте и так умеет генерировать осмысленные ответы.

Музыкальная модель предсказывает не следующее слово, а следующий звуковой кусочек, учитывая всё, что прозвучало раньше: тональность, ритм, инструменты. Она обучилась на огромном количестве треков и «зазубрила», какие сочетания звуков обычно идут вместе — как языковая модель зазубрила, что после «Кошка пьёт» идёт «молоко».

Что ты даёшь на вход и что получаешь:

Промпт (запрос)Что сделает модель
«спокойное лоу-фай для учёбы, 2 минуты»сгенерирует тихий ритмичный трек без слов
«бодрый поп-припев про лето»придумает мелодию, ритм и иногда даже спетые слова
«звук дождя и гитара»смешает фоновый шум с мелодией

Важная честность: ИИ-музыка часто звучит «гладко, но пустовато». Модель отлично повторяет привычные ходы, потому что именно их она встречала чаще всего в обучении — это похоже на переобучение в миниатюре, когда система выдаёт самое типичное вместо по-настоящему нового.

Переобучение — ситуация, когда модель зазубрила обучающие примеры и плохо работает на новых данных.

Поэтому живые музыканты пока спокойны: ИИ хорош как генератор фоновой подложки для ролика или черновой идеи, но настоящую неожиданность и личный смысл он не сочиняет — он усредняет уже услышанное.

Пример 4. Генерация и оживление видео

Видео — это самое сложное, потому что добавляется время. Картинка — один кадр, а видео — это десятки кадров в секунду, и все они должны быть согласованы: если в одном кадре у героя красная кофта, в следующем она не должна стать синей.

Здесь снова работает наш сквозной приём «предсказать следующее». Только теперь модель предсказывает следующий кадр так, чтобы он плавно продолжал предыдущий. Это родственник механизма внимания.

Внимание (attention) — механизм, позволяющий модели решать, на какие слова в тексте смотреть внимательнее при ответе.

В видео модель «смотрит внимательнее» на предыдущие кадры и на текст-описание, чтобы новый кадр не противоречил тому, что уже было. Два типичных сценария:

  • Видео по тексту. Ты пишешь «рыжий котёнок прыгает по столу», и модель рисует короткий клип с нуля, кадр за кадром.
  • Оживление фотографии. Ты даёшь одно фото человека и аудио с речью, а модель подгоняет движения губ и мимику под этот звук. Так делают «говорящие портреты».

И тут возвращается наш самый первый сквозной пример — «кошка против собаки». Чтобы оживить котёнка, модель должна сначала узнать, где на кадре котёнок и где его лапы, глаза, рот. То есть внутри генератора видео живёт тот же распознаватель признаков, с которого начинался весь курс: сначала научились отличать кошку от собаки по признакам, потом — рисовать и двигать эту кошку. Одна нить, просто на новом уровне.

Частые ошибки и заблуждения

Вокруг звукового и видео-ИИ много мифов. Разберём те, на которых спотыкаются чаще всего.

  • «ИИ понимает музыку и чувствует её». Нет. Модель не испытывает эмоций и не знает, что такое «грустно». Она лишь заметила, что определённые сочетания звуков люди помечали как грустные, и воспроизводит статистику. Это узкий ИИ: он делает одну задачу и ничего не понимает за её пределами.
  • «Раз голос как настоящий, значит, это точно тот человек». Опасное заблуждение. Голос клонируется по короткой записи. Услышал по телефону знакомый голос с просьбой срочно перевести деньги — перезвони на известный тебе номер и проверь. Звук давно перестал быть доказательством.
  • «ИИ-видео всегда легко отличить — оно кривое». Это было правдой пару лет назад. Сегодня артефакты остаются (странные пальцы, мерцание фона, неестественное моргание), но они быстро исчезают. Привычка «я-то отличу» — плохая защита.
  • «Сгенерировал — значит, моё, делаю что хочу». Нет. Голос конкретного человека, лицо актёра, стиль музыканта могут быть защищены правами. Клонировать чужой голос или лицо без согласия — это уже не творчество, а нарушение.
  • «ИИ-музыка скоро заменит всех музыкантов». Преувеличение. Модель усредняет услышанное и склонна к переобучению на типичных ходах. Она отличный помощник для черновиков и фона, но источник по-настоящему нового смысла — пока человек.

То, о чём нельзя молчать: дипфейки и этика

Когда голос и видео генерируются неотличимо от настоящих, появляется дипфейк.

Дипфейк — сгенерированные ИИ фото, видео или голос, выдаваемые за настоящие.

Заметь ключевое слово — «выдаваемые за настоящие». Сама по себе технология нейтральна: озвучить мультик голосом любимого актёра по лицензии — это здорово. Проблема начинается, когда подделку выдают за реальность: фейковое видео политика, «голос» твоего друга, просящий деньги, унижающий монтаж с лицом одноклассника. Это уже относится к галлюцинациям наоборот — не модель ошиблась, а человек намеренно соврал её руками.

Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.

Простые правила цифровой гигиены, которые стоит держать в голове:

  1. Проверяй источник. Шокирующее видео или аудио? Поищи, публиковали ли это надёжные СМИ. Сенсация из одного анонимного канала — повод усомниться.
  2. Сомневайся в срочности. Мошенники давят на «срочно, прямо сейчас». Настоящий близкий человек поймёт, если ты перезвонишь и переспросишь.
  3. Не делай дипфейки людей без согласия. Даже «по приколу» с лицом одноклассника — это может быть и больно человеку, и противозаконно.
  4. Маркируй своё. Сделал ИИ-озвучку или видео для проекта — честно подпиши, что это сгенерировано. Это уважение к зрителю.

Мини-проект: собери «карту ИИ-медиа»

Никакого кода — только голова и наблюдательность. Заведи заметку и сделай небольшое исследование на неделю:

  1. Найди три примера ИИ-медиа в своей жизни. Голосовой ассистент в телефоне, ИИ-озвучка в ролике на YouTube, фоновая музыка в чьём-то рилсе, «оживлённое» старое фото. Запиши, что именно сгенерировано: голос, музыка или видео.
  2. Для каждого ответь: что модель резала на токены — текст, звук или кадры? Какой эмбеддинг ей был нужен (чей голос, какое настроение музыки, чьё лицо)?
  3. Найди один артефакт. В любом ИИ-видео или озвучке поймай момент, где видно «шов»: неестественная пауза, мерцание, слишком гладкая интонация. Опиши его словами.
  4. Сформулируй этику. Для одного из примеров реши: было ли честно его сделать без подписи «сгенерировано ИИ»? Кому это могло бы навредить?

Когда сделаешь — ты будешь смотреть на ленту соцсетей совсем другими глазами: не «вау, как настоящее», а «ага, тут модель достроила следующий кадр, а вот тут — клонировала голос».

Итоги

  • Голос, музыка и видео для ИИ — это та же задача предсказания следующего кусочка, что и текст. Меняется только материал, который режут на токены.
  • Синтез голоса идёт по цепочке: текст → звуковые признаки → волна, плюс эмбеддинг голоса как «приправа». Клонирование голоса возможно по нескольким секундам записи.
  • Музыкальный ИИ — это языковая модель для звука; она усредняет услышанное и склонна к переобучению на типичных ходах.
  • Видео сложнее из-за времени: кадры должны быть согласованы, тут помогает механизм внимания, а внутри живёт распознаватель признаков из примера «кошка против собаки».
  • Та же технология рождает дипфейки. Технология нейтральна — опасно намеренное выдавание подделки за правду. Проверяй источник, сомневайся в срочности, не подделывай людей без согласия, маркируй своё.

В следующем уроке раздела «ИИ-инструменты» мы пойдём дальше по практике: разберём ещё один тип инструментов и научимся выбирать подходящий под задачу. А пока — иди и собери свою карту ИИ-медиа. Лучшее понимание приходит, когда ты сам ловишь модель за руку.

Проверьте себя
1. Что общего у генерации текста, голоса, музыки и видео в современных ИИ?
AВсе они предсказывают следующий кусочек (токен, звук, кадр) по предыдущим
BВсе они требуют, чтобы модель по-настоящему понимала смысл и чувствовала эмоции
CВсе они работают только если человек заранее запишет все варианты вручную
DВсе они используют разные принципы, не связанные между собой
2. Зачем при синтезе голоса модели отдельно подают эмбеддинг голоса?
AЧтобы ускорить генерацию звуковой волны
BЧтобы задать, чьим тембром и манерой произнести фразу
CЧтобы модель проверила текст на грамматические ошибки
DЧтобы добавить к речи фоновую музыку
3. Почему ИИ-музыка часто звучит «гладко, но пустовато»?
AПотому что у моделей слишком мало вычислительной мощности
BПотому что модель намеренно делает музыку скучной
CПотому что она склонна выдавать самые типичные ходы, которые встречала чаще всего — это похоже на переобучение
DПотому что музыку всегда генерируют без звука, а звук добавляют потом
4. Почему генерировать видео сложнее, чем одну картинку?
AПотому что видео нельзя резать на токены
BПотому что добавляется время: десятки кадров должны быть согласованы друг с другом
CПотому что для видео не нужен механизм внимания
DПотому что в видео нет никаких признаков для распознавания
5. Что именно превращает нейтральную технологию синтеза голоса в дипфейк?
AИспользование слишком короткой записи-образца
BТо, что подделку выдают за настоящую речь реального человека
CЛюбая озвучка, сделанная с помощью ИИ
DДобавление фоновой музыки к синтезированному голосу
6. Тебе пришло голосовое от «друга» с просьбой срочно перевести деньги, и голос звучит как настоящий. Как правильно поступить?
AСразу перевести — голос ведь точно его
BПерезвонить другу на известный тебе номер и проверить, прежде чем что-то делать
CПереслать голосовое другим друзьям, чтобы они тоже помогли
DОтветить тем же голосовым, доверившись звучанию