«Окей, как ты меня понял?»: внутри голосового помощника

«Понять речь» для машины — это не один навык, а конвейер из четырёх непохожих задач.

Помощник не слышит слова — он превращает дрожание воздуха в числа, числа в текст, текст в намерение, а намерение в действие.

Звук — это волна чисел

Микрофон не знает букв. Он измеряет, как колеблется воздух, тысячи раз в секунду, и выдаёт длинный ряд чисел — амплитуду в каждый момент. Всё, чем располагает помощник, — этот поток. Дальше его обычно переводят в спектрограмму: картинку, где видно, какие частоты звучат громко в каждый момент. На такой картинке «а» и «с» выглядят по-разному — и с ней уже может работать нейросеть.

Этап 1. Из звука в текст

Первый ИИ решает задачу распознавания речи (ASR): по спектрограмме восстановить слова. Это адски сложно. Люди не делают пауз между словами — «какдела» звучит слитно. Все говорят по-разному: акценты, скорость, шум холодильника. Поэтому модель опирается не только на звук, но и на язык: услышав смазанное «..ставь будил..ник», она знает, что «будильник» — реальное и частое слово, а «будимьник» — нет, и выбирает правдоподобный вариант.

Слово-пробудитель

Колонка не шлёт в облако всё подряд — это и накладно, и жутковато. Локально, прямо на устройстве, крутится крошечная модель, которая ловит одну-единственную фразу-ключ вроде «Алиса» или «Окей, Гугл». Услышала — «просыпается» и только тогда начинает слушать всерьёз. Поэтому помощник реагирует на имя, но (в идеале) не стенографирует кухонные разговоры.

Этап 2. Понять, чего ты хочешь

Текст есть — но «поставь будильник на семь» для машины пока просто строка. Второй ИИ занимается пониманием смысла: вытаскивает намерение (создать будильник) и параметры (время — 07:00). Это как разбор предложения в школе, только цель — не части речи, а action и его аргументы. «Разбуди в семь», «поставь будильник на 7 утра», «через сколько там семь часов» — формулировки разные, намерение одно.

Фраза	Намерение	Параметры
Поставь будильник на 7	create_alarm	time = 07:00
Какая завтра погода	get_weather	day = завтра
Включи джаз	play_music	genre = джаз

Этап 3. Сделать дело

Намерение распознано — дальше обычная программная логика. create_alarm дёргает системный будильник, get_weather идёт в погодный сервис, play_music запускает стриминг. Этот этап часто вообще без всякого ИИ: просто вызвать нужную функцию с нужными аргументами.

Этап 4. Ответить голосом

Осталось сказать «Будильник на семь утра установлен» вслух. Это синтез речи (TTS) — обратная задача к первой. Современные модели не склеивают ответ из кусочков записей, а генерируют звуковую волну целиком, поэтому голос звучит плавно, с интонацией и дыханием, а не как робот из старых фильмов.

Сложим конвейер

За одной командой — четыре разных ИИ подряд: услышать (звук в текст), понять (текст в намерение), сделать (вызвать функцию), ответить (текст в звук). Сбой на любом звене — и помощник «тупит»: расслышал не так, не понял намерение или не нашёл подходящего действия. Зная этапы, легко угадать, где именно он споткнулся, — и переформулировать так, чтобы понял.