Зачем нужны хайрезы? Что в них такого особенного? Зачем они, если наше ухо слышит до 20 кГц? Ответы в картинках на эти и другие вопросы будут разобраны в этом маленьком расследовании.
Не будем рассусоливать и сразу перейдем к делу. Hi-Res и 24 бит в частности предназначены прежде всего звукоинженерам. Самый младший отчет этого значения (т.е. 24 х 6 = -144 дБ) лежит далеко за границами слуха, а значит, позволяет минимизировать ошибки квантования при редактировании и пересохранении материала. Отсюда переходим к следующему вопросу — нужен ли хайрез слушателю?
Короткий ответ — не нужен. Но это слушателю «vulgaris», т.е. обычному гражданину, который смотрит телевизор и кино на гаджетах, слушает радио. Такой потребитель может чаять каких-то басов на сабвуфере, но в принципе не задумывается, что у фонограммы бывают оттенки, а сам контейнер аудиофайла обеспечивает различные уровни искажений оригинала. Но мы же сейчас будем говорить не обо всех, а в рамках Hi-Fi-субкультуры, правда?
И если в виниловой сфере по понятным причинам ценятся LP-первопрессы, то очевидно, что и с цифровыми релизами должно все обстоять аналогичным образом. Для музыкального коллекционера важна аутентичность слепка, оказаться как можно ближе к роднику контента. И поскольку сегодня подавляющее большинство альбомов монтируется в цифровой среде, финальный микс в Hi-Res и есть та самая точка, к которой стремится собиратель аудиожемчужин. И не беда, что ее легко скопировать. Беда приходит, когда возникает необходимость портить Hi-Res оригинал в угоду форматам нижнего уровня.
Допустим, вы издатель и в препродакшене находится фонограмма с параметрами PCM-потока 24 бит/96 кГц. Выше параметры ставят только для трансферов архивных мастер-лент, да и то не очень часто. Самый типичный случай в музыкальной индустрии — это вообще финальный микс 24 бит/44,1 кГц. Но мы все-таки сейчас рассмотрим более высокую материю.
Предположим, что вы как издатель хотите порадовать Hi-Fi-комьюнити и не зажали этот хайрез в студийном архиве, а передали его далее на реализацию в Qobuz, HD Tracks, Bandcamp, еще куда-то. А может наоборот, зажали. В любом случае у вас стоит задача подготовить мастер для тиража компакт-дисков, к которым все привыкли, ну и сделать MP3.
Разумеется, что специально для CD никто не будет делать заново эквализацию и прочий мастеринг. Все, что надо было скомпрессировать и эквализовать, уже сделано в Hi-Res мастере. Вам только нужно конвертировать его в стандарт 16 бит/44,1 кГц. И теперь поговорим о значениях термина lossless.
В принципе, исторически повелось, что содержимое компакт-диска в любом виде — AIFF/WAV или FLAC называется lossless-форматами. Но так ли это, если оригинальная фонограмма была 24 бит/96 кГц или даже 24 бит/44,1 кГц? Если говорить о побитовой точности, то здесь уже вряд ли компакт-диск можно отнести к lossless-оригиналу, пусть даже и официально выпущенному. Предлагаю изучить, что происходит при децимации Hi-Res до форматных рамок CD-стандарта с 40-летней историей.
Напрасно думают некоторые деятели, что понижение дискретности с 96 кГц на 44,1 кГц – это что-то типа выбрасывания дурацкой пустоты ультразвука, которую все равно никто не услышит. Запомните, пересчитывается заново в новую сетку весь сигнал, в том числе и в слышимом спектре. Причем с 96 кГц на 44,1 кГц – это еще и некратный пересчет, лучше было бы на 48 кГц.
Любая фильтрация, пусть даже и цифровая влечет за собой нарушения фазовых характеристик. И чем жестче режут фильтры, тем больше будет паразитного звона на фронтах импульсов. Не будете фильтровать, тогда к вам полезут зеркальные спектры продуктов квантования. Сейчас покажем что и как.
Для эксперимента я синтезировал сигнал квадратной волны 1 кГц в дискретности 24 бит/96 кГц. Да, в музыке квадратной волны не бывает, а сама запись имеет более сложную форму, но на этом образце будет нагляднее демонстрировать артефакты конвертации. Попробуем привести этот сигнал к стандарту компакт-диска.
Битностью займемся потом, а сейчас давайте-ка сначала снизим дискретность до 44 100 Гц. Откинем ту самую дурацкую пустоту ультразвука, тем более, что и сигнал-то всего один и на 1000 герц, ага-ага.
Различный аудиософт предлагает свои варианты Sample Rate Convertor (SRC). В интерфейсе Izotope RX это выглядит вот так (см. меню ниже). Кто-то из технарей использует готовый пресет не глядя. Кто-то более ответственный (что случается гораздо реже) будет каждый раз подбирать настройки вручную и слушать результат. Лично меня эта процедура всегда сводит с ума, потому что результат никогда не нравится на 100%.
Настройка SRC напоминает параметры цифрового фильтра в ЦАПах, только разумеется, что самого цифро-аналогового преобразования не происходит. Задается крутизна спада виртуальной АЧХ, распределение паразитных колебаний «звона» — до или после импульса и т.п. Я покажу несколько настроек и результат, к которому они приводят.
Фильтр всегда что-то лечит, а что-то калечит. Жесткая отсечка спектра продуктов квантования приводит к росту колебаний на фронтах импульса, так называемого «звона». Причем располагается «звон» как после импульса, так и до. Это, как мы знаем случай фазолинейного фильтра типа Sharp. Характеристика спада может немного отклоняться от вертикальной оси, но в идеале представляет собой «прямой угол» (см. на картинке), который еще называется Brickwall (кирпичная стена). ЦАПы Chord любят так фильтровать, но далеко не все от этого в восторге.
Если вы хотите избавиться от пред-звона, то смещаете эту энергию на «потом», в хвост импульса, суммируя в этой области колебания. Узнаете минимально-фазовый фильтр?
Оба случая выше относятся к классификации спада амплитудно-частотной характеристики по типу Sharp. Желаете уменьшить «звон» — ослабляйте крутизну спада фильтра, делайте его мягче, т.е., Slow. Но при этом будет страдать чистота спектра в верхнем диапазоне. Поставите крайнюю точку минимума на границу диапазона — фильтр начнет влиять и частично гасить полезный сигнал в рабочем диапазоне. Ниже можно посмотреть итоги работы фильтра Slow в фазолинейном и минимально-фазовом изводе. Как видите, форма волны уже чуть ближе к оригиналу.
Чем меньше фильтрации, тем скорее перестают звенеть фронты импульсов. Но и не ждите никакой защиты от зеркального спектра. Смещаете точку отсечки вперед за пределы диапазона вплоть до самого свободного развития событий, как в NOS-ЦАПах — в полезный сигнал будут проникать все больше паразитных продуктов квантования.
Ну что, выбрали своего бойца? Как будем фильтровать-то? Или лучше все-таки не мучить сигнал обработками и слушать Hi-Res в первозданном виде?
Второй этап после ресемплинга дискретности в 44 100 Гц — понижение битности аудио до 16 разрядов. Ведь аудиопоток все еще 24-битный, а для CD это не годится. Чтобы показать следующую деградацию, для второго эксперимента я сгенерировал сигнал 24 бит/44,1 кГц по уровню минус 90 дБ. Это тот же самый 1 кГц, но уже синусоидальной формы, чтобы оценивать его ступенчатость при конвертации. Почему такой тихий по громкости?
Потому что минус 90 дБ отстоит от предела динамического диапазона CD на 6 дБ, то есть на величину младшего разряда. Не забываем расклад 6 дБ на 1 бит, т.е., 16 х 6 = 96 дБ теоретического разрешения Red Book.
При разрешении 24 бит синус такого уровня имеет прекрасную гладкую форму. Вы сами можете увидеть точки, из которых строится кривая синуса.
Если мы попробуем изложить этот же сигнал в 16 бит, то он будет выглядеть «ступеньками», потому что один бит уже не разрежешь надвое. Вы можете отбрасывать младшие разряды из 24 бит или сразу попытаться записывать синус такого уровня громкости в 16-битной среде. Тоже самое будет, если вы будете отправлять 24-битный сигнал на винтажный 16-битный ЦАП. К этой убогой форме вы будете возвращаться в любом случае. Как же нам сохранить (хотя бы частично) гладкость тихих переходов 24 бит на более низких форматах?
На выручку приходит абсурдный, на первый взгляд, способ. При конвертации с 24 на 16 бит следует вбросить малую (на уровне того самого младшего бита) порцию шума с акцентом на ВЧ-область — свыше 15 кГц, где он будет не так заметен. Что мы увидим после такой процедуры?
Внешне сигнал стал «мохнатым», увеличилась его амплитуда. Обратите внимание на отсчеты, теперь они занимают уровни выше, отдельные пики добираются аж до -78 дБ. Смотрится такой результат вроде неприглядно, но общий его силуэт имеет уже плавные, а не ступенчатые очертания. И если профилировать «волосатика» ВЧ-фильтром (а такая процедура будет непременно в любом ЦАПе), то мы вновь разглядим наш синус, считавшийся утерянным. Покалеченный и кривенький, но ведь уже и не «ступеньки», правда, чудо?
Благодаря этому фокусу, тихие динамические оттенки 24-битной записи подтягиваются в слышимую область 16-битного разрешения. При этом максимальные уровни сигнала остаются без изменений из-за ничтожно малой величины сглаживающего шума в районе младшего бита. Так работает процедура нойз-шейпинга (noise shaping, формирование шума), как частного случая дизеринга.
Уловка эта не нова. В 80-х ее впервые применил Philips, чтобы не терять разрешение компакт-диска на 14-битном ЦАПе TDA1540. В самом конце 80-х Technics и JVC представили 1-битные конвертеры MASH (MultistAge noise SHaping) и PEMDD (Pulse Edge Modulation Differential-linearity-error-less D/A conversion), использующие ШИМ-модуляцию. На протяжении 90-х годов нойз-шейпинг использовался для увеличения динамического диапазона до 20 бит в HDCD и фирменной технологии Sony Super Bit Mapping (SBM), помните компакт-диски с такими пометками? Ну и разумеется, нойз-шейпинг — это фундаментальная основа DSD-технологии, нашей обожаемой.
Дизеринг годится не только для звукозаписи, но и обработки изображения. При перегоне картинки с высокой битностью в стандартные 8 бит во избежание постеризации (т.е. рваной градации цветов) в нее подмешивается сглаживающий шум. А что получилось у нас?
В данном случае амплитуда восстановленного синуса увеличилась с -90 дБ до уровня -82 дБ. Просьба не относится к этой цифре как к законченной формуле. Величина нойзшейпинга/дизеринга ведь тоже настраивается отдельно в аудиоредакторе. Чем она больше, тем громче (т.е., заметнее) вытянутся сигналы малого уровня из 24-битного оригинала. Но использовать этот алгоритм можно до определенного предела, чтобы не ухудшить общий сигнал/шум фонограммы. И уж точно не стоит повторять эту процедуру дважды.
Итак, мы получили аудио в стандарте, пригодном для размещения на компакт-диске. Но называть ли это по-прежнему лосслесом, т.е. форматом без потерь оригинальной таблицы данных? Это зависит от того, что мы считаем оригиналом. Так можно утверждать разве что по отношению к более грубым и разрушительным способам уменьшения размеров аудиопотока вроде МР3 и других lossy-кодеков.
Кстати, иногда приходится слышать презрительное отношение в адрес MQA. Мол, это же поганый lossy-кодек со сжатием и потерей данных. Да, MQA получается путем усечения оригинального Hi-Res, но в гораздо меньшей степени, чем CD! Даже в нераспакованном виде MQA все равно стоит на ступеньку выше компакт-диска, поскольку содержит аудио с разрешением более 16 бит, в отличие от пределов возможностей Red Book. То есть, оснований называться лосслессом у MQA как раз будет побольше.
Можно, конечно, еще посравнивать это всё между собой на слух, если делать нечего. Hi-Res оригиналы vs. оструганные 16-битные заготовки для CD . Добавить туда еще MQA. В одних случаях образцы будут малоотличимы между собой. В других разница проявится более явно. Но к таким результатам можно прийти, даже играясь на нижних уровнях с CD и MP3 320 кбит/с. Тогда зачем каждый раз гадать? Ведь влияющих факторов здесь масса — репертуар, динамические и частотные характеристики фонограммы и прочие вещи. Да и нет единого протокола SRC-алгоритмов для понижения разрядности Hi-Res. Как уже говорилось, это студийное решение, которое принимается и исполняется неочевидным для нас способом.
Так что если речь идет о новом издании (а сравнение ремастеров с предыдущими релизами — это отдельная тема и мы сейчас не об этом), желательно приобретать альбом в максимально высоком битрейте аудио, какой бы пустой спектр над ним не болтался. Это поможет избежать и не рефлексировать на тему всех этих способов обезжиривания оригинала, рассмотренных выше.
Hi-Res дает возможность обладать цифровым первопрессом, т.е. находиться на предельно близкой дистанции к музыканту. Причем, что немаловажно, не нарушая правил дистанции на карантине!