Начнем с простого вопроса. Поднимите руки, кто в течение последних пяти лет записывал видео для своих житейских либо отчетных нужд? Очень хорошо, полный зал. Теперь поднимите руки, кто записывал видео в модном режиме 4K? Поменьше, но тоже достаточно. А теперь поднимите руки, у кого на видеороликах была аудиодорожка с нормальным PCM-сигналом? Ага, почти никого. Хотя вот единственный человек утверждает, что много лет назад калымил с MiniDV-камерой на свадьбах.

Жать или не жать?

Что касается видео, то хранить, передавать и обрабатывать его в lossless-виде практически невозможно. Счет пойдет на гигабайты после первых же секунд записи. Поэтому разработчики всегда применяли различные ухищрения для уменьшения объема, отбрасывая часть информации каналов яркости и цветности. Возможно, эта привычка сыграла свою роль и в судьбе аудиоканалов. Если уж прессуем картинку, отчего бы не пожать и аудио?

Как известно, битрейт 16-битного сигнала PCM в несжатом виде составляет 1,5 Мбит/сек. Сущие копейки по нынешним временам. У 24-битного аудио эта цифра составит менее 2,5 Мбит/сек. Как же так вышло, что в современных устройствах видеозаписи за исключением профессиональных моделей не нашлось места даже для этих базовых форматов, не говоря уже о хайрезах?

Казалось бы, в какой-нибудь MKV можно подцепить FLAC-дорожку, формат допускает подобную процедуру, но она считается нештатной. Так поступают разве что нерды в частных случаях для какого-нибудь партизанского дубляжа. Сегодня же куда не ткни — в потоковые сервисы или в гаджеты — о lossless-звуке там давно не то что никто не заикается, но зачастую просто не знает, что такое может быть.

С той или иной степени паршивости пожатия записи тиктокеров и других блогарей кочуют туда-сюда, редактируются и пересохраняются с очередной порцией яда lossy-кодера. А затем заливаются в соцсеть, где обрабатываются еще раз (sic!) lossy-кодером с потерей качества. В итоге окружающая среда замусорена жутким квакающим звуком стримов из телефонных динамиков.

Lossless-стерео не в приоритете

Сегодня мы имеем ситуацию, когда даже более-менее оснащенные команды видеопродакшена в финальном мастере практически никогда не прописывают дорожку PCM. Хотя, разумеется, такая возможность существует.

Например, мониторы/рекордеры Atomos захватывают поток с внешней камеры по HDMI профессиональными кодеками AVID DNx и Apple ProRes с сумасшедшим по бытовым меркам битрейтом и субдискретизацией цветности до 4:4:4. При этом они умеют записывать в этот же файл и PCM-дорожки 24 бит/48 кГц, захваченные микрофоном камеры.

После этапа монтажа и постпродакшена заказчику и на трансляцию выдается значительно ужатый в десятки раз файл, где перекодированию подверглось не только видео (по понятным причинам), но зачем-то и дорожка, переведенная в Dolby AC-3 или AAC, т.е. в аудиокодеки с неизбежной потерей оригинального качества.

Тот же Netflix может зарядить в свои трансляции хоть многоканальную Dolby Atmos. Но несмотря на впечатляющий битрейт 640 кбит/с, Atmos по-прежнему остается lossy-форматом относительно PCM. А в остальном никто особо и не старается, выдаются самые застиранные битрейты — будто казенные кальсоны в доме престарелых.

Мне возразят, мол, вы тут такие ужасы рассказываете, позвольте, а откуда тогда взялись музыкальные Blu-ray с дорожкой LPCM? Действительно, на некоторых аудиофильских изданиях порой можно встретить параметры дискретизации аж целых 24 бит/96 кГц.

Но это лишь плод авторинга диска BD-ROM, когда к папке STREAM с видеофайлами привязывается внешний аудиопоток, который может быть любым — хоть 24 бит/192 кГц. Разумеется, сам звук для Blu-ray-издания был записан на отдельный рекордер, далее подготовлен должным образом в студии мастеринга и синхронизирован с видеоконтентом.

Но забудьте про нативный 24 бит/96 кГц на видеоматериале. Уж поверьте человеку, бывавшему на съемочных площадках. В процессе записи там на любом железе (хоть аудио, хоть видео) уже много лет прописана единственная частота дискретизации PCM — 48 кГц.

И вряд ли будет выше — им хватает. Но ладно бы, если фонограммы в таком виде сохранялись в целости и сохранности для зрителя. Но ведь кроме AAC и Dolby AC-3 других официальных вариантов ждать не приходится.

Вспомним и сравним, какие увечья ожидали стереофонограмму в тех или иных видеоконтейнерах.

DV (1993 год)

Это был отличный передовой формат для своего времени, а по ряду параметров он способен пристыдить и современные видеотехнологии. Звук на DV-носитель записывался в честный PCM 16 бит/48 кГц и никаких гвоздей. Разрешение DV составляло всего 480/576 строк, но емкость 60-минутной кассеты составляла целых 13 Гб из-за битрейта видео 25 Мбит/сек! Не всякий HD-ролик наших дней достигает таких величин.

Видеопоток DV имел достаточно низкую степень сжатия (1:5), где каждый кадр обрабатывался отдельно. Затем это позволяло спокойно заниматься нелинейным монтажом без особой нагрузки на процессор компьютера и пересчета всего массива с ухудшением качества, что неизбежно происходит с нынешними кодеками вроде AVCHD.

DV-камеры использовали не только телерепортеры 90-х, но даже Ларс фон Триер с Дэвидом Линчем в своих фильмах. А уж сколько было снято свадеб на MiniDV-кассеты — не перечесть. Целая эпоха!

Проверять целостность звука на DV-носителях не имеет смысла. Как уже было сказано, дорожка формируется непосредственно оцифровкой входящего аналогового сигнала в PCM 16 бит/48 кГц и больше никакими кодеками не сжимается. Все начинало портиться только при переносе содержимого DV-кассеты на DVD-издание.

Во-первых, на DVD уже нельзя обойти установленную MPEG-кодером верхнюю границу по битрейту видео в 9 800 кбит/с. Но и эту цифру приходилось занижать, чтобы вместить длительную программу на оптический носитель, который даже в двухслойном исполнении не дотягивал до емкости DV-кассеты.

Но если хватало места на DVD и совести монтажеров, оригинальный звук еще можно было сохранить в PCM и не перекодировать его в двухканальный Dolby AC-3. Правда, так поступали не все, так что на рынке преобладали DVD с видеоклипами, на которых значились многоканальный и стереовариант Dolby AC-3, но отсутствовал нормальный LPCM 2.0 без потерь.  

Чтобы проверить глубину этой деградации, выполним своего рода эмуляцию монтажа DVD с дорожкой Dolby AC-3. В качестве оригинала используем тестовый WAV-трек RMAA с параметрами 16 бит/48 кГц. Далее в редакторе аудио-видео помещаем его в DVD-проект со звуком Dolby AC-3 стерео.

Изображение в данном тесте не имеет значения, хоть бы и статичное черное поле. Затем программно извлечем аудиодорожку из полученного видеофайла и загрузим для анализа в программу RMAA. Такую же процедуру будем повторять и при экспериментах с другими контейнерами медиа. Напомним, что в данной статье все манипуляции с аудио производятся в цифровом виде без декодирования в аналоговый сигнал.

В итоге битрейт дорожки Dolby AC-3 составил 192 кбит/с и сделать его выше не было никакой возможности. Жесткая отсечка спектра начинается на границе 15,7 кГц. Вокруг тестовых сигналов гармонических и интермодуляционных искажений возникают мусорные шумы.

На графиках они показаны в паре с референсными показателями PCM-оригинала. Работа кодера Dolby AC-3 выглядит так себе. И это не удивительно, учитывая, как жестко и утомительно звучали такие DVD в сравнении с VHS-кассетами с Hi-Fi-дорожкой.

 

MPEG2 / HDV (1996/2003 год)

В дальнейшем на кассеты формата DV и даже на флэш-носители стало можно записывать сигнал 1080i/720p. Причем в том же битрейте 25 Мбит/сек, но уже с помощью нового на тот момент кодека H262/MPEG-2 с субдискретизацией цветности 4:2:0. Собственно, MPEG-2 и явился основой первых Blu-ray-дисков, а до этого — DVD-спецификации.

Не скрою, что HDV по-прежнему является моим фаворитом по картинке среди бытового и профессионального видео на цифре. Разумеется, это не конкурент 35-мм кинопленке — у HDV особое место в индустрии. В 2000-х на эту технику была снята масса зрелищного документального кино, а еще не будем забывать и о настроечных Blu-ray-дисках для калибровки.

Причем даже на крошечных бытовых камерах серии Canon HV можно было получить потрясающий результат по пластичности картинки. Но, увы, звуку PCM в контейнере HDV уже не было места. Аудио кодировалось по протоколу MPEG-1 (т.е. практически такому же, что и MP3) — правда, с максимально возможным битрейтом до 384 кбит/с.

Для одного и того же битрейта предлагается два сценария психоакустической модели MPEG-1. Предположить, какой из них будет выбран видеотехникой, не представляется возможным. Но по одному варианту на предельном битрейте АЧХ почему-то жестко и очень рано срезается на 13 кГц. По другому сценарию психоакустической модели срез отодвигается дальше на 18 кГц, но все равно на участке от 13 кГц уже становится неспокойно от артефактов.

 

MPEG4/H264 (1998/2003 год)

Дальнейшее развитие стандарта MPEG породило целую грибницу различных способов упаковки видео, среди которых и пиратские нужды, и Apple TV, и фотокамеры, и Youtube. Не будем вдаваться в детали каждого контейнера, т.к. сегодня наша основная задача — сравнить предельные битрейты на звуковом сопровождении.

Современные зеркалки Canon умеют записывать PCM на топовых режимах видеосъемки, но все, что ниже — придется сохранять в AAC. В линейке фотокамер Sony для съемки в 4K используется формат XAVC — как частный случай MPEG-4 AVC/H.264 уровня 5.2. С ним тоже возможна полноценная запись PCM в режиме 24 бит/48 кГц. А вот, допустим, с предыдущим AVCHD кодеком для Full HD этот номер уже (или еще) не пройдет — только AAC и Dolby AC-3.

Зато у Dolby AC-3 при AVCHD возможен максимальный битрейт 256 кбит/с. Его и посмотрим. Причем помимо 16-битного образца введем в эксперимент и 24-битный, ведь на кодер может поступать и такой сигнал.

По сравнению с режимом 192 кбит/с граница среза отодвигается на 17 кГц, но неприятный характер помех остается таким же. Причем очевидно, что обработка 24-битного сигнала кодером Dolby AC-3 ведется в 16-битном домене, т.е. путем транкейта, отброса младших битов, что не очень-то хорошо. Осталась одна надежда на AAC.

Приятно будет узнать, что для кодека AAC спецификация позволяет установить дискретизацию хоть 96 кГц, а битрейт — целых 512 кбит/с. Это будет повыше возможностей МР3, хотя, признаться честно, таких видеороликов я еще не встречал. Обычно там стоит что-то вроде 128 кбит/с, что не может не печалить. Посмотрим, что получится.

Здесь тоже 24-битное аудио в качестве оригинала ничем не помогло, добавив помех транкейта. Поэтому от греха подальше лучше кормить lossy-кодеки обычным 16-битным сигналом.

Но стоит еще раз отметить, что из всех lossy-кодеков AAC наиболее гуманно обходится со спектром. Уж точно получше, чем MPEG1 и Dolby AC-3. Это обусловлено более мелким шагом семплирования и не такими зверскими алгоритмами отсечки высоких частот. Даже на битрейте 128 срез наступает после 15,7 кГц.

Правда, несмотря на низкие показания искажений, на графике довольно дико выглядит шумовые помехи вокруг основного тона. Однако, возможно, синтетические тоны RMAA не слишком подходят для объективного описания работы психоакустической модели ААС.

В завершение посмотрим, что умеет AAC на максимальном битрейте 512 кбит/с. Только уже не будем мучать кодер 24-битным сигналом, а дадим обычную классику PCM 16 бит/48 кГц, с которой все начиналось еще в эпоху кассет miniDV.

Наконец, спектр выглядит практически не поврежденным. Правда, это получилось за счет непонятных новообразований вокруг тестовых тонов. Особого смысла от такого AAC я не вижу, поскольку выигрыш от такого битрейта уже приближается к обычным lossless-кодекам вроде FLAC без лицензии, которые по-прежнему игнорируются индустрией. Так что радуйтесь, если найдете в спецификации своей камеры LPCM-режим — и держитесь за него покрепче.