Обзор задач: ASR, TTS, говорящий, звуки, музыка, эмоции

Раскладываем по полочкам все основные направления аудио-AI и их связи.

Задача аудио-AI — это конкретная пара «что на входе → что на выходе»: от речи к тексту, от текста к голосу, от звука к метке.

В прошлом уроке мы бегло перечислили задачи. Теперь разберём каждую чуть глубже: что именно она получает на вход и выдаёт на выход, чем сложна и где применяется. Это карта, к разделам которой мы будем возвращаться весь курс.

Распознавание речи (ASR)

Вход — звуковая запись речи, выход — текст. Главная сложность: один и тот же текст звучит по-разному у разных людей, в разном темпе, с акцентом, в шуме. ASR — основа голосового ввода, субтитров, расшифровки совещаний. Современные системы (например, Whisper) делают это для десятков языков одной моделью.

Синтез речи (TTS)

Обратная задача: вход — текст, выход — звук голоса. Тут важны естественность, интонация, правильные ударения. TTS озвучивает книги, навигаторы, помогает людям с нарушениями зрения и речи. Нейросетевые модели (Tacotron, VITS) сделали синтез почти неотличимым от человека.

Кто говорит: идентификация и диаризация

Эти две задачи легко спутать. Идентификация говорящего отвечает на вопрос «чей это голос» (сравнение с эталонами, биометрия). Диаризация отвечает «кто и когда говорил» — размечает запись на отрезки «говорит спикер 1», «говорит спикер 2», не зная имён. Вместе они превращают диалог в структурированный протокол.

Что за звук: классификация и события

Не вся речь — речь. Огромный класс задач — распознавание звуковых событий: разбилось стекло, плачет ребёнок, сработала сирена, залаяла собака. Это применяют в умном доме, системах безопасности, мониторинге окружающей среды. Сюда же относится анализ музыки: определение жанра, темпа, тональности, распознавание мелодии (как Shazam).

Как звучит человек: эмоции и состояние

По голосу можно судить не только о словах, но и о том, как они сказаны. Анализ эмоций определяет радость, злость, усталость, стресс. Это используют в колл-центрах (оценка удовлетворённости), в медицине (ранние признаки депрессии, болезни Паркинсона по голосу). Задача тонкая: эмоция размыта и субъективна.

Связи между задачами

Задачи не изолированы — они складываются в конвейеры. Типичная расшифровка подкаста выглядит так.

запись подкаста
   |
   v
[VAD] убираем тишину
   |
   v
[диаризация] кто когда говорит  -->  спикер 1 / спикер 2
   |
   v
[ASR] что сказано  -->  текст по сегментам
   |
   v
готовый протокол: "Спикер 1: ...", "Спикер 2: ..."

Так одна большая цель собирается из нескольких моделей-кирпичиков. Понимать границы каждой задачи важно, чтобы правильно проектировать такие конвейеры.

Полезно держать в голове, что одна и та же задача может стоять «в две стороны». Если ASR и TTS зеркальны (речь→текст и текст→речь), то их часто связывают в один продукт: голосовой ассистент сначала распознаёт вашу фразу через ASR, прогоняет смысл через языковую модель, а ответ озвучивает через TTS. Поэтому когда колонка «тупит», виноват может быть любой из трёх блоков, и отлаживать их приходится по отдельности. Умение мысленно разрезать продукт на эти кирпичики — главный навык инженера аудио-AI, который мы и тренируем в этом уроке.

Хороший пример того, насколько сильно различаются обучающие данные, — сравните ASR и идентификацию говорящего. Для ASR два разных человека, произнёсшие «привет», должны дать одинаковый выход (текст «привет»), то есть модель учат игнорировать голос. А для биометрии всё наоборот: те же две записи обязаны дать разный ответ, и модель учат цепляться именно за индивидуальные особенности голоса. Один и тот же звук, противоположные цели обучения — вот почему нельзя взять модель ASR и «бесплатно» получить из неё распознавание спикера.

Стоит понимать, зачем вообще распознавать звуковые события, а не только речь. Представьте систему мониторинга в больнице: микрофон в палате не расшифровывает разговоры, но должен мгновенно отреагировать на звук падения, кашля или сигнала тревоги аппаратуры. Здесь ASR бесполезен, а классификация событий — критична. Так область делится на «что сказано» и «что произошло», и для второго существует отдельный класс датасетов и моделей вроде AudioSet, где размечены тысячи бытовых и природных звуков без единого слова текста.

Как работает под капотом

Несмотря на разнообразие, у задач общий фундамент: почти все они превращают звук в спектрограмму и пропускают её через нейросеть. Различается «голова» модели и обучающие данные. ASR обучают на парах «звук + расшифровка», классификацию звуков — на «звук + метка», TTS — наоборот, на «текст + звук». Это значит, что освоив представление звука один раз, вы поймёте сразу все задачи.

Частые ошибки

Путать идентификацию и диаризацию. Первая знает «кто конкретно», вторая лишь различает голоса между собой.
Считать ASR решённой задачей. В шуме, на редких языках и терминах ошибки остаются заметными.
Браться за эмоции как за точную классификацию. Разметка субъективна, метрики «плавают» — это нормальная особенность задачи.

Итоги

ASR — речь в текст; TTS — текст в речь; это две зеркальные базовые задачи.
Идентификация = «чей голос», диаризация = «кто когда говорил».
Классификация звуков и музыки, анализ эмоций — отдельные большие направления.
Реальные системы — это конвейеры из нескольких моделей, а под капотом у всех общий «спектрограмма → нейросеть».