На прошедшей онлайн-встрече было задано множество интересных и полезных вопросов о ЦАПах и цифровом сигнале. По итогам я сделал конспект-расшифровку наиболее важных из них, и по некоторым моментам дал расширенное объяснение. Будем считать, что получился своего рода FAQ по актуальному состоянию цифровых технологий в аудиокультуре.

На какие технические характеристики нужно обращать внимание при выборе ЦАПов — в порядке важности (силе влияния на звук), если можно так структурировать?

Ответ зависит от того, в какой вы точке вы находитесь. У вас уже что-то есть и нужен апгрейд — или вообще ничего нет? По ЦАПам можно посмотреть иерархию производителя. Если в линейке он такой один и стоит при этом не три копейки, то очевидно, что у производителя вся надежда только на него и это его предел возможностей. Т.е. производитель вложился в эту единственную модель.

Если же таких ЦАПов в линейке несколько, очевидно, что в младших моделях кое-что будет слабеньким — возможно, даже умышленно. Хотя по железной себестоимости разброс у пяти аппаратов может быть не таким и значительным.

Бывает, что производитель полагает, что он крепко упахался по теме и хочет разложить свои яички по всем корзинам. Поэтому он выстраивает свою линейку таким образом, чтобы сначала зацепить покупателей младших моделей чувством причастности к хорошему авторитетному бренду. Затем после обсуждения на форумах, где все щеголяют более дорогими аппаратами, человек настраивается в будущем занять более высокую ступеньку в этой иерархии.

Мне больше импонирует первый подход с минимальным количеством вариантов. ЦАП — это не колонка, которая может быть большого или маленького литража. Или усилитель, который должен выдавать много тока как сварочный аппарат. Здесь идет тихая тонкая работа — все это может работать хоть от батареек. Вот и сделайте одну модель на совесть!

Изучите все возможности чипа-конвертера, все его ключи, которые регулируют его работу и фильтрацию, поставьте лучший клок с минимальным джиттером, нормальные операционные усилители, исключите грязь питания. Хотя, повторюсь, для аудиолюбителей и в том числе журналистов второй вариант кажется более увлекательным — больше фактуры, можно посмаковать и поболтать о разнице начинок.

Приводимые технические параметры битности и дискретности принципиального значения не имеют. Если речь не идет о каком-то старье, сейчас даже дешевые чипы обеспечивают полную поддержку Hi-Res-аудио. Если на нем написано 32 бит или 24 бит — все это неважно. Официальной 32-битной музыки не бывает. Важно, какой у вас дальше обвес и была ли конструкция спроектирована адекватным человеком.


В чем разница выбора ЦАПа для CD и для FLAC и т.п., или они универсальны, кроме очевидного, типа необходимости порта USB в случае с FLAC с компьютера?

В CD-проигрывателях передача сигнала на ЦАП осуществляется в рамках одной платы, поэтому там используется протокол i2s. В нем синхронизация подается по отдельной линии. Его поддерживают все аудиочипы. Многие аудиофилы верят, что это самый лучший цифровой протокол на планете, но убедительных технических доказательств этому феномену пока не представлено. Случаи i2s-входов на внешних ЦАПах весьма редки. Причина банальна — стандартом не предусмотрено кабельное соединение для i2s. Поэтому некоторые Hi-Fi производители в частном порядке пытаются городить какие-то свои схемы на базе BNC, DIN, HDMI и др. С понятными итогами совместимости для этих агрегатов.

Поэтому если вы захотите вытащить из CD-транспорта PCM-код на внешний конвертер — понадобится кабель и SPDIF-протокол. Кабели — оптика или коаксиал, либо (реже) AES на разъеме XLR или BNC. Протокол SPDIF не использует отдельную шину, он содержит в себе тактовый сигнал синхронизации и ограничен параметрами 24 бит/192 кГц. SPDIF-ресивер на ЦАПе будет настраиваться строго по тактовой частоте транспорта, каков бы он ни был — хорош или плох.

USB-передача аудио — как это ни странно, находится ближе к старинному i2s, потому что фактически транслируется сигнал на i2s-шину в чипе ЦАПа. Здесь также существует возможность передачи до 32 бит и выделенный канал синхронизации. Первые USB-приемники имели синхронизацию с началом первого фрейма, но современные USB-ЦАП теперь владеют собственным клоком, и поэтому передача аудио по USB называется асинхронной. Подробнее можно почитать здесь.


Всегда интересовало выражение «музыкальный» ЦАП. Можно ли так характеризовать ЦАПы — и если да, то какие есть критерии «музыкальности»?

Не могу поручиться за каждого, кто злоупотребляет подобными терминами. В одних случаях подразумевается, что устройство принадлежит к аудиобренду High End, чей имидж обусловлен такой выраженной эмоциональной составляющей ее идеолога. Например, Питер Квортруп из Audio Note.

В других случаях этот термин могут приписывать мультибитным чипам — особенно, если они еще и работают в NOS-режиме, сглаживая высокочастотный диапазон. Окраска, ламповая или высокочастотная — все это может давать повод назвать такой ЦАП меломанским.

Предлагаю заодно рассмотреть и обратный вариант — почему некоторые слушатели обвиняют чипы ESS Sabre в антимузыкальности, хотя измерения у них такие, что не снились никаким «филипсам».


Какой чип ЦАПа лучше: AKM или ESS? Какие у них достоинства и недостатки?

В дешевых реализациях я бы избегал ESS. Если мы решим что-то выяснить с настройками чипов ESS, то обнаружим, что сделать это весьма непросто. В отличие от других производителей — Texas Instruments, Analog Devices или Asahi Kasei, — чипы ESS не имеют открытых кодов спецификаций.

Поэтому сразу предупреждаю самодельщиков не связываться наобум с «сейбрами». Это прибор с потенциально хорошими показателями, но сложный — и не все производители понимают, с чем имеют дело. Иногда некоторые не догадываются ставить сумматор из-за балансных выходов на чипе.

А кроме того, например, в модели ES9038 по умолчанию включена опция компенсации гармонических искажений 2-го и 3-го порядка. Бог весть, как она работает и чем жертвует. Как показывают более глубокие измерения, при уровне сигнала около -40 до -20 дБ на аудиовыходе у «сейбров» растут интермодуляционные искажения, которые принимают форму так называемого «горба».

Внутренняя архитектура модулятора Sabre мультибитная и работает с блоками по 5 бит, усредняя значения. Математика Hyperstream на деле оказалась более чувствительной к смещению постоянного тока и вызывает рост интермодуляционных искажений в определенной области.

И это будет происходить, если вы используете цифровой аттенюатор перед ЦАПом. Интермодуляционные искажения более выражены для слуха, чем THD, но реже попадают в спецификации. А в западных пабликах это явление теперь так и зовут — ESS Hump.

Части производителей (таким, как Benchmark) удалось победить этот «горб», но у большинства проблема сохранилась. Так что сами видите — необходимо понимание работы ЦАПа в разных режимах.


Часто говорят о частоте дискретизации, но редко о битности. Насколько в реальности повышение глубины до 24 или 32 бит — это хорошо? Например, если частота остается 44,1 — улучшится ли звук, став 24-битным вместо 16 бит?

Чтобы понимать битовую глубину (или разрядность), сперва определимся, что они описывают и как работают. В бинарном коде бит будет либо 1, либо 0. Дальше с увеличением битности варианты кодирования растут по экспоненте. Напомню апокриф с изобретателем шахмат, которого правитель спросил о награде.

Шахматист смиренно попросил начать с одного зернышка на первой клетке и удваивать их количество на следующей. В общем, через несколько дней подсчетов правитель и казначеи поняли, что над ними издеваются. Потому что такого количества зерна не собрать, даже если осушить океаны и засеять всю землю. 64 клетки в шахматах — посмотрите на инженерном калькуляторе, сколько будет 2 в 64 степени. Это и есть 64 бит пшеницы.

При оцифровке (т.е. квантовании) истинные уровни всегда будут где-то между двумя соседними значениями кода. 16-битный звук описывается в пределах 65 536 значений. 24-битный звук, то есть 2 в 24 степени — уже описывается 17 миллионами вариантов уровня. Ну и как полагаете, какая сетка более точно опишет оттенки аналогового сигнала?

Еще один важный момент — редактирование цифрового сигнала. При изменении уровней, эквализации и другой обработке все процедуры для уменьшения ошибок квантования желательно вести в более высокой битности, чем оригинал. Поэтому на железном оборудовании в самом конце 80-х сначала появились шины 20 бит разрядности, затем и 24. В современных DAW-комплексах, да и просто компьютерных аудиоредакторах или даже регулировки громкости в плеерах типа Foobar внутренний пересчет потока ведется в 32 бит с плавающей точкой. DSP-процессоры могут использовать еще более высокие показатели — 64 бит, как на той шахматной доске.

Для тиража финальный микс опрокидывают обратно в 24 бит — либо по старинке в 16. В 32-битном формате музыку не издают. Нет смысла: огромный объем, ни SPDIF, ни FLAC 32 бит не поддерживает. Некоторые аудиофилы утверждают, что нет смысла и в 24-битной музыке. Мне так не кажется.

Дело в том, что для конвертации 32-битного проекта в 16-битную форму нужна инъекция сглаживающего шума. Так снимаются ошибки квантования при отбросе младших битов. Работает функция дизеринга (dither). И при переводе из 32 в 24 бит его величина настолько незначительна, что им даже можно пренебречь. Так что вмешательство в оригинальный сигнал при такой конвертации куда более щадящее, и имеет смысл предпочитать более близкие к оригиналу 24-битные миксы — даже если у них «обычная» частота дискретизации 44,1 кГц.

Что касается вопроса, насколько это адекватно реалиям реальной аудиосистемы, то тепловой шум компонентов составляет где-то 22 бит из расчета 6 децибел на один бит — т.е. где-то -130 дБ. Так что 24 бит получается с запасом. В статье «Бит против килогерца» я именно 22 бит предлагал установить вместо 24, а самую ходовую частоту дискретизации поднять с 44 до 60 кГц, т.е. перенести верхнюю границу диапазона 30 кГц, чтобы избавиться от проблем фильтрации на границе слуха.

Если при воспроизведении 16-битный контент попадает на 24- или 32-битный ЦАП — ничего страшного. Просто младшие разряды останутся с нулями. А вот когда наоборот приходят 24 бит на старый 16-битный ЦАП, младшие 8 бит будут отброшены. Из-за транкейта ошибок квантования искажений в итоге станет больше.


Мультибитные ЦАПы — зачем они вообще нужны?

Мультибитные аппараты появились не нарочно, чтобы порадовать аудиофилов. Такая уж получилась технология — другой тогда еще не было. Хотя некоторые любители винтажа сейчас задним числом говорят, что такой ее сделали нарочно, чтобы отвадить потребителей от пластинок. Они же утверждают про «аналоговость» звучания мультибитных ЦАПов, с чем я не вполне согласен и на незнакомой системе вряд ли угадаю — вот это точно играет ЦАП на лестничной R-2R матрице. Если же намеренно ввести себя в аудиофильский транс и долго и изнурительно сравнивать, то я бы назвал мультибитный почерк иначе — жанровой «выразительностью».

Такой конвертер при грамотной реализации демонстрирует пластичность НЧ-диапазона, подчеркнет контур вокала или инструмента на акустических записях. Можно допустить, что у дельта-сигм при более уверенной и насыщенной «высоте» сцены, акустический тембр выглядит более постным и диффузным. Но, повторюсь, эта разница не в стиле «небо и земля».

В 80-90-х было выпущено множество CD-плееров с мультибитными чипами и грязноватым, утомительным звуком. Обвязка ведь тоже играет роль. К тому же не забывайте, что, например, DSD — это чистейшая дельта-сигма, однобитная. И у этой концепции вполне себе мягкий аналоговый (или псевдоаналоговый, как вам будет угодно) почерк.


Какие есть разновидности FIR-фильтров?

Информация по ним общеизвестна. Самый старый называется фазолинейным. После такого фильтра в волне будут паразитные колебания до и после импульса. В основном, сейчас применяют минимально фазовые — у него все колебания отложены на потом, после импульса. И эти флуктуации более выражены, чем у фазолинейного.

Если вы, как инженер, желаете уменьшить колебания, то ослабляете фильтр, делаете крутизну его спада мягче. Подобные фильтры называют уже не Sharp, а Slow. Они имеют спад на ВЧ. Если ваша система достаточно звонкая и прозрачная, Slow-фильтры ничего не испортят — мне они нравятся больше, чем Sharp.

1,2 – фазлинейные фильтры Sharp и Slow; 3, 4 – минимально-фазовые Sharp и Slow фильтры; 5 – без фильтрации non-oversampling (NOS); 6 – относительно новый вариант минимально-фазового фильтра Low Dispersion


Периодически поднимается тема апскейлинга частоты и битности цифрового сигнала. Насколько он нужен?

Если мы говорим не о записи, а о предварительном ресемплировании на более высокую частоту, то его цель — конвертировать и отфильтровать сигнал вне пределов человеческого слуха, сместить эту спорную область повыше. Но при пересчете такого сигнала на более высокий порядок тоже нарушается фаза. Так что оценивать успех этой процедуры придется вам на слух на конкретном устройстве. Лично мне это кажется лишней нагрузкой на процессор.


Самые современные и крутые ЦАПы поддерживают DSD1024 и апскейлинг PCM до 32 бит/768 кГц. Не убивает ли звук апскейлинг входящего сигнала до максимальных значений? Есть ли смысл (реальный прирост в качестве звука) в хранении и прослушивании DSD выше, чем DSD256?

Эта поддержка абстрактна и просто показывает вычислительные возможности. В идеале эти характеристики более приближены к аналоговому звуку с бесконечно затухающим спектром и бесконечной битностью. Но на практике никто не собирается записывать звук в таких форматах.

Вся кино- и музыкальная техника, а также персонал, который ее обслуживает, вполне удовлетворены частотами дискретизации 44,1 и 48 кГц. На эти частоты настроены и плагины обработки. Редко, когда используется 96 кГц на финальной стадии микширования, но сам мультритрек зачастую опять в 44,1. Нам может не нравиться такое положение дел в звукозаписи, но это данность. Что выросло, то выросло.


Есть ли разница в том, как техника воспроизводит разные представления одного и того же цифрового сигнала. Например, контейнеры без сжатия или со сжатием (без потерь)? Меняется ли что-то в разных версиях аудиоформатов? Например, FLAC был впервые представлен в 2001 году и пересматривался с тех пор десятки раз.

Сравнивал — ничего принципиального не заметил. Я знаю, что некоторые аудиофилы предпочитают не паковать в lossless-форматы, так как якобы без сжатия техника играет более «непринужденно». Те измерения, которые я провожу, не указывают на разницу при скармливании оригинального PCM или сжатого без потерь (архивированного) файла.

И я еще не дошел до той стадии паранойи, чтобы сравнивать версии FLAC. Это просто архиватор — какая-то версия жмет эффективнее, какая-то хуже. Он не трогает целостность потока, и у аудио в принципе не такая уж плотность данных, чтобы как-то переживать о нагрузке на современные чипы. Если не ошибаюсь, с какой-то поры все изменения версий FLAC затрагивали в основном кодировку тэгов. Но, опять же, находятся отдельные слушатели, которые скажут, что без тэгов файл звучит лучше.


Какое место у формата DSD в современной индустрии и есть ли у него будущее?

Будущего в современной индустрии звукозаписи у такого формата нет, поскольку в нем невозможно редактировать материал. Остается нишевое потребление. И если кому-то нравится звук DSD, то в него можно архивировать мастер-ленты с финальным миксом, что иногда и делается. И не забывайте, что в основе многих SACD, звучание которых вам нравится, использовались обычные записи PCM-рекордеров 16 бит/44,1 кГц.


На какую характеристику стоит обратить внимание в ЦАПах при построении настольной системы?

На коммутацию между ЦАПом и вашими активными колонками. Балансное подключение приветствуется. Также приветствуется USB-драйвер от XMOS или Amanero. Он должен обеспечивать нормальное ASIO-подключение.