«Окей, как ты меня понял?»: внутри голосового помощника
Ты говоришь вслух — и колонка ставит будильник. Между звуком и действием прячется цепочка из четырёх разных ИИ. Разберём, что происходит за полсекунды тишины перед ответом.
«Понять речь» для машины — это не один навык, а конвейер из четырёх непохожих задач.
Помощник не слышит слова — он превращает дрожание воздуха в числа, числа в текст, текст в намерение, а намерение в действие.
Звук — это волна чисел
Микрофон не знает букв. Он измеряет, как колеблется воздух, тысячи раз в секунду, и выдаёт длинный ряд чисел — амплитуду в каждый момент. Всё, чем располагает помощник, — этот поток. Дальше его обычно переводят в спектрограмму: картинку, где видно, какие частоты звучат громко в каждый момент. На такой картинке «а» и «с» выглядят по-разному — и с ней уже может работать нейросеть.
Этап 1. Из звука в текст
Первый ИИ решает задачу распознавания речи (ASR): по спектрограмме восстановить слова. Это адски сложно. Люди не делают пауз между словами — «какдела» звучит слитно. Все говорят по-разному: акценты, скорость, шум холодильника. Поэтому модель опирается не только на звук, но и на язык: услышав смазанное «..ставь будил..ник», она знает, что «будильник» — реальное и частое слово, а «будимьник» — нет, и выбирает правдоподобный вариант.
Слово-пробудитель
Колонка не шлёт в облако всё подряд — это и накладно, и жутковато. Локально, прямо на устройстве, крутится крошечная модель, которая ловит одну-единственную фразу-ключ вроде «Алиса» или «Окей, Гугл». Услышала — «просыпается» и только тогда начинает слушать всерьёз. Поэтому помощник реагирует на имя, но (в идеале) не стенографирует кухонные разговоры.
Этап 2. Понять, чего ты хочешь
Текст есть — но «поставь будильник на семь» для машины пока просто строка. Второй ИИ занимается пониманием смысла: вытаскивает намерение (создать будильник) и параметры (время — 07:00). Это как разбор предложения в школе, только цель — не части речи, а action и его аргументы. «Разбуди в семь», «поставь будильник на 7 утра», «через сколько там семь часов» — формулировки разные, намерение одно.
| Фраза | Намерение | Параметры |
| Поставь будильник на 7 | create_alarm | time = 07:00 |
| Какая завтра погода | get_weather | day = завтра |
| Включи джаз | play_music | genre = джаз |
Этап 3. Сделать дело
Намерение распознано — дальше обычная программная логика. create_alarm дёргает системный будильник, get_weather идёт в погодный сервис, play_music запускает стриминг. Этот этап часто вообще без всякого ИИ: просто вызвать нужную функцию с нужными аргументами.
Этап 4. Ответить голосом
Осталось сказать «Будильник на семь утра установлен» вслух. Это синтез речи (TTS) — обратная задача к первой. Современные модели не склеивают ответ из кусочков записей, а генерируют звуковую волну целиком, поэтому голос звучит плавно, с интонацией и дыханием, а не как робот из старых фильмов.
Сложим конвейер
За одной командой — четыре разных ИИ подряд: услышать (звук в текст), понять (текст в намерение), сделать (вызвать функцию), ответить (текст в звук). Сбой на любом звене — и помощник «тупит»: расслышал не так, не понял намерение или не нашёл подходящего действия. Зная этапы, легко угадать, где именно он споткнулся, — и переформулировать так, чтобы понял.