Немного истории и место DSP в аудио-AI

Откуда выросла область и почему без обработки сигналов в ней никуда.

DSP (Digital Signal Processing) — цифровая обработка сигналов: набор методов, которые превращают звук-как-числа в полезные признаки (спектр, энергию, частоты).

Аудио-AI не возник на пустом месте. За ним — почти век работы инженеров над тем, как записать, передать и проанализировать звук. Понимание этой истории помогает не изобретать велосипед и уважать слой DSP, на котором стоят все нейросети.

Краткая хронология

ПериодЧто произошло
1920–1930-етеория связи, теорема о дискретизации (Найквист, Котельников)
1950–1960-епервые распознаватели цифр, спектральный анализ
1970–1990-еэпоха HMM/GMM — статистическое распознавание речи
2010-еглубокое обучение: нейросети вытесняют HMM
2020-ебольшие предобученные модели: wav2vec2, Whisper, нейро-TTS

Обратите внимание: фундаментальные DSP-результаты (как правильно дискретизировать сигнал) появились почти 100 лет назад и используются до сих пор без изменений. Нейросети поменяли «мозг» системы, но «уши» — то, как сигнал оцифровывают и превращают в спектр — остались прежними.

Где в конвейере живёт DSP

DSP занимает место между «сырым звуком» и «нейросетью». Его задача — подготовить данные так, чтобы сети было легче учиться.

[ DSP-слой ]                          [ AI-слой ]
дискретизация -> окна -> спектр  -->  нейросеть -> результат
   (Найквист)   (STFT)  (Фурье)        (учится)

Иногда границу размывают: end-to-end модели на сырой волне «съели» часть DSP внутрь себя. Но даже там идеи окон и фильтров живут в первых слоях сети — просто веса теперь учатся, а не задаются формулой.

Маленький DSP-расчёт вручную

Чтобы DSP не казался теорией, посчитаем простейшую характеристику сигнала — его энергию (сумму квадратов отсчётов). Это базовый кирпич, на котором стоят громкость и детекция голоса.

signal = [0.0, 0.5, 0.9, 0.5, 0.0, -0.5, -0.9, -0.5]
energy = sum(x * x for x in signal)
print("Энергия сигнала:", round(energy, 3))
print("Средняя мощность:", round(energy / len(signal), 3))

Вывод:

Энергия сигнала: 2.62
Средняя мощность: 0.328

Всего одна строка кода — и у нас уже есть число, по которому можно отличить тишину (энергия около нуля) от звука. Так из простых DSP-операций собираются сложные признаки.

Чтобы прочувствовать, насколько революционным был переход от HMM к глубокому обучению, полезна одна цифра. Классические системы 1990-х на телефонной речи давали WER в десятки процентов и требовали тщательной ручной настройки фонетических моделей под каждый язык. С приходом нейросетей в 2010-х ошибка на тех же задачах упала в разы, а с появлением Whisper в 2020-х одна модель стала покрывать десятки языков сразу. При этом нижний слой — дискретизация на 16 кГц и мел-спектрограмма — за все эти эпохи практически не поменялся, что лишний раз подтверждает прочность DSP-фундамента.

Любопытно, что теорема, которую на западе зовут теоремой Найквиста-Шеннона, в русскоязычной традиции носит имя Котельникова, опубликовавшего её в 1933 году. Это не просто историческая деталь: она напоминает, что DSP вырос из задач телеграфа и радиосвязи, а вовсе не из ИИ. Инженеры связи десятилетиями оттачивали, как ужать сигнал в канал без потерь, и аудио-AI просто унаследовал их математику. Поэтому термины вроде «полоса частот», «фильтр» и «спектр» приходят в нейросетевой мир уже готовыми, со столетним багажом проверенных формул.

Возникает резонный вопрос: если нейросети так хороши, почему бы не скормить им сырую волну и не выкинуть DSP совсем. На практике так иногда и делают, но это дорого. Спектрограмма — это, по сути, бесплатная подсказка модели: мы заранее раскладываем звук по частотам, и сети не приходится заново открывать преобразование Фурье на своих данных. Это экономит и обучающие примеры, и вычисления. DSP здесь работает как разумная предобработка, которая встраивает в систему вековое знание физики звука вместо того, чтобы выучивать его с нуля.

Как работает под капотом

Любой признак в аудио-AI — это композиция элементарных DSP-операций над списком чисел: сложение, умножение, сдвиг окна, преобразование Фурье. Нейросеть потом учится на этих признаках. Поэтому «магия» распознавания речи на нижнем уровне — это аккуратная арифметика над тысячами отсчётов в секунду. Чем лучше вы чувствуете этот уровень, тем понятнее, почему модель ошибается на шуме или тихой записи.

Частые ошибки

  • Считать DSP устаревшим. Нейросети не отменили дискретизацию и спектр — они на них стоят.
  • Игнорировать качество записи. Никакая модель не вытащит то, что потеряно при плохой оцифровке (низкая частота, клиппинг).
  • Думать, что end-to-end = без DSP. DSP-идеи просто переехали внутрь первых слоёв сети.

Итоги

  • Аудио-AI стоит на DSP, которому почти 100 лет, — и эта база не устарела.
  • История прошла путь HMM/GMM → глубокое обучение → большие предобученные модели.
  • DSP живёт между сырым звуком и нейросетью, готовя признаки.
  • Базовые признаки (энергия, мощность) — это простая арифметика над отсчётами.
Проверьте себя
1. Какое место занимает DSP в конвейере аудио-AI?
AЗаменяет нейросеть
BСтоит между сырым звуком и нейросетью, готовя признаки
CИспользуется только для синтеза речи
DНе используется в современных системах
2. Что показывает энергия сигнала (сумма квадратов отсчётов)?
AЧастоту звука
BСилу/громкость: у тишины она около нуля
CЯзык речи
DЭмоцию говорящего
3. Верно ли, что end-to-end модели полностью отказались от идей DSP?
AДа, DSP там не используется вовсе
BНет, идеи окон и фильтров живут в первых слоях, но веса теперь обучаются
CДа, они работают с текстом
DНет, они вообще не используют нейросети