Как нейросеть распознаёт речь в шумной комнате

Представь: ты сидишь в шумном кафе, вокруг гудят разговоры, звенит посуда, играет музыка. Ты тихо говоришь телефону: «Поставь будильник на семь утра» — и он понимает тебя с первого раза. Как машина умудряется выловить твои слова из этой звуковой каши?

Звук — это просто волна цифр

Прежде чем нейросеть что-то поймёт, звук нужно превратить в числа. Микрофон много тысяч раз в секунду измеряет, насколько сильно дрожит воздух, и записывает это как длинный ряд чисел. Получается цифровая запись волны — то, что ты видишь в любом аудиоредакторе как извилистую линию.

Но с голой волной работать неудобно: в ней всё свалено в кучу. Поэтому компьютер делает хитрый трюк — превращает звук в спектрограмму. Это как разложить звук на отдельные ноты: по горизонтали идёт время, по вертикали — высота звука (частоты), а яркость показывает, насколько громко звучит каждая частота в каждый момент. Голос человека, шум кофемашины и музыка выглядят на спектрограмме по-разному — и это первая зацепка для нейросети.

Спектрограмма — это как ноты для звука: вместо одной сплошной линии ты видишь, какие частоты и когда зазвучали.

Нейросеть, которая выучила фонемы

Дальше за дело берётся обученная нейросеть. Её много-много раз кормили записями речи вместе с расшифровкой текста, и постепенно она научилась связывать кусочки спектрограммы со звуками речи — фонемами. Фонема — это мельчайший звук-кирпичик: «с», «о», «б» в слове «собака».

Работает это слоями. Первые слои сети замечают совсем простые штуки: вот резкий всплеск, вот плавный гул. Слои поглубже складывают из этих примет узоры посложнее — характерную форму звука «ш» или «а». А самые верхние слои уже собирают из фонем слова и целые фразы. Важно, что сеть смотрит не на один миг, а на цепочку звуков подряд: по соседним звукам легче догадаться, что именно ты сказал, — точно так же, как ты сам угадываешь смазанное слово по остальной фразе.

А теперь самое сложное — шум

В тишине всё это работало бы легко. Но в кафе твой голос — лишь один из десятков источников звука, и все они сваливаются в один и тот же микрофон, смешиваясь в общую волну. Как сеть отделяет тебя от фона?

Её специально тренировали на грязи. Разработчики берут чистые записи речи и искусственно подмешивают к ним шум: гул толпы, музыку, шипение, уличный гомон. Сеть учится узнавать слова несмотря на помехи, потому что именно такие примеры она видела тысячи раз во время обучения.
Голос звучит не как шум. Человеческая речь имеет узнаваемую структуру: чёткие частоты, ритм, переходы между звуками. Случайный шум этой структуры лишён, и сеть постепенно учится цепляться именно за «речевые» узоры, отбрасывая остальное.
Помогает контекст. Даже если пара звуков утонула в грохоте, языковая часть системы прикидывает, какое слово вероятнее. Услышав «поставь буди...ник», она достроит «будильник», потому что такое сочетание встречается на каждом шагу, а «будирник» — почти никогда.

Несколько ушей лучше, чем одно

У современных колонок и телефонов обычно не один микрофон, а несколько. И это огромное подспорье. Звук от твоего рта доходит до разных микрофонов с крошечной разницей во времени — буквально на доли тысячной секунды. По этой разнице устройство вычисляет, откуда именно идёт голос, и мысленно «поворачивается» в твою сторону, приглушая всё, что приходит с других направлений.

Представь, что ты в толпе пытаешься расслышать друга. Ты невольно поворачиваешь голову к нему — и второе ухо помогает понять, с какой стороны звук, чтобы сфокусироваться. Массив микрофонов делает ровно то же самое, только математикой. Этот приём называют пространственной фильтрацией, и именно поэтому умная колонка слышит тебя даже сквозь работающий телевизор.

Почему это всё ещё не идеально

Если ты хоть раз orал команду помощнику в третий раз подряд — ты знаешь, что магия иногда даёт сбой. Очень громкий фон, несколько говорящих разом, сильный акцент, редкое слово или плохой микрофон по-прежнему сбивают сеть с толку. Распознавание речи — это игра вероятностей, а не точная формула: система выбирает самый правдоподобный вариант, но иногда ошибается.

И всё же прогресс огромный. Ещё недавно компьютер в шумной комнате не понимал почти ничего, а сегодня он вытаскивает твои слова из гула кафе чаще, чем промахивается. За этим стоит простая, но мощная идея: превратить звук в картинку, показать нейросети миллионы примеров — в том числе нарочно зашумлённых — и дать ей самой нащупать, что здесь речь, а что мусор. Чем больше примеров она видит, тем увереннее слышит именно тебя.