Как MP3 выбрасывает звук, который вы всё равно не слышите
MP3 уменьшает музыкальный файл в десять раз, удаляя часть звука навсегда. Но удаляет он с умом — ровно то, что ухо не способно расслышать. Знакомимся с психоакустикой: наукой о слепых пятнах нашего слуха.
MP3 делает с музыкой то же, что JPEG с картинкой: безжалостно выбрасывает данные — но прицельно те, что ваше ухо физически не способно уловить.
Психоакустика изучает не звук, а наше восприятие звука. И оказывается, в нашем слухе полно слепых пятен, которыми и пользуется MP3.
Несжатый звук с компакт-диска — это около 1,4 мегабита в секунду. MP3 при хорошем качестве укладывается в десять раз меньше, и многие не слышат разницы. Как и JPEG, это сжатие с потерями: часть звука исчезает безвозвратно. Фокус в том, какую часть выбрасывать. Ответ дала наука о восприятии звука — психоакустика.
Ухо слышит не всё
Первое слепое пятно — диапазон. Человек в лучшем случае слышит примерно от 20 до 20 000 колебаний в секунду, а с возрастом верхняя граница падает. Всё, что выше, можно смело удалить: ухо его не зарегистрирует. Уже неплохая экономия.
Второе — порог слышимости зависит от частоты. Очень тихий звук на одной частоте мы расслышим, а на другой — нет, хотя по громкости они равны. Наш слух настроен под человеческую речь и в её диапазоне чувствителен, а по краям — глуховат. MP3 хранит детали там, где ухо востро, и грубит там, где оно туповато.
Главный трюк: маскировка
Но настоящая магия — маскировка. Громкий звук делает соседние тихие звуки неслышимыми. Если рядом с громкой нотой звучит тихая близкой частоты, вы тихую просто не услышите — её «забивает» громкая. Это знакомо каждому: в шумном метро не разобрать тихий разговор, хотя в тишине вы бы его расслышали.
MP3 постоянно анализирует звук и спрашивает: «Этот тихий компонент сейчас замаскирован чем-то громким?» Если да — его можно не кодировать вовсе или записать очень грубо. Слушатель ничего не заметит, потому что и так бы не услышал.
Есть даже временная маскировка: сразу после громкого удара ухо ненадолго «глохнет», и тихие звуки в эти миллисекунды теряются. Удивительно, но маскировка работает и чуть раньше громкого звука — мозг обрабатывает слух с задержкой.
Как это собирается в файл
Технически MP3 раскладывает звук на множество частотных полос (похоже на то, как JPEG раскладывает картинку на узоры). Для каждой полосы психоакустическая модель решает, сколько бит она заслуживает: где ухо чувствительно и звук не замаскирован — больше бит и выше точность; где замаскировано или вне диапазона — меньше бит, грубее, а порой и ноль.
| Битрейт | Качество | Размер минуты |
| 320 кбит/с | почти неотличимо от оригинала | около 2,4 МБ |
| 192 кбит/с | хороший компромисс | около 1,4 МБ |
| 96 кбит/с | слышны искажения | около 0,7 МБ |
Где MP3 спотыкается
Психоакустическая модель — приближение, и на сложном материале она ошибается. Тарелки и аплодисменты на низком битрейте звучат как шипение: там много тихих компонентов на близких частотах, которые модель путается маскировать. Поэтому аудиофилы для архива выбирают форматы без потерь, а MP3 оставляют для прослушивания на ходу.
И всё же MP3 — выдающаяся инженерия. Он не пытается сохранить звук точно. Он сохраняет ваше впечатление от звука, тратя биты ровно там, где работает ваш слух, и экономя там, где у него слепые пятна. Музыка в кармане стала возможной именно потому, что инженеры изучили не микрофон, а человека.