Немного истории и место DSP в аудио-AI
Откуда выросла область и почему без обработки сигналов в ней никуда.
DSP (Digital Signal Processing) — цифровая обработка сигналов: набор методов, которые превращают звук-как-числа в полезные признаки (спектр, энергию, частоты).
Аудио-AI не возник на пустом месте. За ним — почти век работы инженеров над тем, как записать, передать и проанализировать звук. Понимание этой истории помогает не изобретать велосипед и уважать слой DSP, на котором стоят все нейросети.
Краткая хронология
| Период | Что произошло |
| 1920–1930-е | теория связи, теорема о дискретизации (Найквист, Котельников) |
| 1950–1960-е | первые распознаватели цифр, спектральный анализ |
| 1970–1990-е | эпоха HMM/GMM — статистическое распознавание речи |
| 2010-е | глубокое обучение: нейросети вытесняют HMM |
| 2020-е | большие предобученные модели: wav2vec2, Whisper, нейро-TTS |
Обратите внимание: фундаментальные DSP-результаты (как правильно дискретизировать сигнал) появились почти 100 лет назад и используются до сих пор без изменений. Нейросети поменяли «мозг» системы, но «уши» — то, как сигнал оцифровывают и превращают в спектр — остались прежними.
Где в конвейере живёт DSP
DSP занимает место между «сырым звуком» и «нейросетью». Его задача — подготовить данные так, чтобы сети было легче учиться.
[ DSP-слой ] [ AI-слой ] дискретизация -> окна -> спектр --> нейросеть -> результат (Найквист) (STFT) (Фурье) (учится)
Иногда границу размывают: end-to-end модели на сырой волне «съели» часть DSP внутрь себя. Но даже там идеи окон и фильтров живут в первых слоях сети — просто веса теперь учатся, а не задаются формулой.
Маленький DSP-расчёт вручную
Чтобы DSP не казался теорией, посчитаем простейшую характеристику сигнала — его энергию (сумму квадратов отсчётов). Это базовый кирпич, на котором стоят громкость и детекция голоса.
signal = [0.0, 0.5, 0.9, 0.5, 0.0, -0.5, -0.9, -0.5]
energy = sum(x * x for x in signal)
print("Энергия сигнала:", round(energy, 3))
print("Средняя мощность:", round(energy / len(signal), 3))Вывод:
Энергия сигнала: 2.62 Средняя мощность: 0.328
Всего одна строка кода — и у нас уже есть число, по которому можно отличить тишину (энергия около нуля) от звука. Так из простых DSP-операций собираются сложные признаки.
Чтобы прочувствовать, насколько революционным был переход от HMM к глубокому обучению, полезна одна цифра. Классические системы 1990-х на телефонной речи давали WER в десятки процентов и требовали тщательной ручной настройки фонетических моделей под каждый язык. С приходом нейросетей в 2010-х ошибка на тех же задачах упала в разы, а с появлением Whisper в 2020-х одна модель стала покрывать десятки языков сразу. При этом нижний слой — дискретизация на 16 кГц и мел-спектрограмма — за все эти эпохи практически не поменялся, что лишний раз подтверждает прочность DSP-фундамента.
Любопытно, что теорема, которую на западе зовут теоремой Найквиста-Шеннона, в русскоязычной традиции носит имя Котельникова, опубликовавшего её в 1933 году. Это не просто историческая деталь: она напоминает, что DSP вырос из задач телеграфа и радиосвязи, а вовсе не из ИИ. Инженеры связи десятилетиями оттачивали, как ужать сигнал в канал без потерь, и аудио-AI просто унаследовал их математику. Поэтому термины вроде «полоса частот», «фильтр» и «спектр» приходят в нейросетевой мир уже готовыми, со столетним багажом проверенных формул.
Возникает резонный вопрос: если нейросети так хороши, почему бы не скормить им сырую волну и не выкинуть DSP совсем. На практике так иногда и делают, но это дорого. Спектрограмма — это, по сути, бесплатная подсказка модели: мы заранее раскладываем звук по частотам, и сети не приходится заново открывать преобразование Фурье на своих данных. Это экономит и обучающие примеры, и вычисления. DSP здесь работает как разумная предобработка, которая встраивает в систему вековое знание физики звука вместо того, чтобы выучивать его с нуля.
Как работает под капотом
Любой признак в аудио-AI — это композиция элементарных DSP-операций над списком чисел: сложение, умножение, сдвиг окна, преобразование Фурье. Нейросеть потом учится на этих признаках. Поэтому «магия» распознавания речи на нижнем уровне — это аккуратная арифметика над тысячами отсчётов в секунду. Чем лучше вы чувствуете этот уровень, тем понятнее, почему модель ошибается на шуме или тихой записи.
Частые ошибки
- Считать DSP устаревшим. Нейросети не отменили дискретизацию и спектр — они на них стоят.
- Игнорировать качество записи. Никакая модель не вытащит то, что потеряно при плохой оцифровке (низкая частота, клиппинг).
- Думать, что end-to-end = без DSP. DSP-идеи просто переехали внутрь первых слоёв сети.
Итоги
- Аудио-AI стоит на DSP, которому почти 100 лет, — и эта база не устарела.
- История прошла путь HMM/GMM → глубокое обучение → большие предобученные модели.
- DSP живёт между сырым звуком и нейросетью, готовя признаки.
- Базовые признаки (энергия, мощность) — это простая арифметика над отсчётами.