Технологические решения и инновации Apple могут выглядеть спорными с точки зрения логики, но у них есть одно неоспоримое преимущество: они становятся популярными и таким образом двигают прогресс вперед. В той или иной мере.

На прошедшей недавно конференции WWDC 2020 Apple сообщила, что с обновлением на iOS14 наушники AirPods Pro тоже обновятся и научатся эмулировать многоканальный звук. Причем не просто раскидают виртуальные каналы по правому и левому наушникам, но также будут учитывать положение головы слушателя с помощью гироскопов, встроенных в корпуса, и положение телефона, с которого воспроизводится контент.

Направлена эта фишка, ясное дело, на просмотр кино — чтобы погружение в процесс было более полноценным. Опустим тот момент, что смотреть что-то, кроме коротких роликов с YouTube, на крохотном экранчике не очень удобно — все-таки на iPhone доступны самые разные приложения онлайн-кинотеатров и стриминговых сервисов.

А лучше задумаемся о том, почему большинство улучшайзеров, создающих псевдомногоканальный звук в наушниках, ведут себя не совсем так, как хочется, и что может предпринять Apple для того, чтобы наконец пнуть всех в нужном направлении.

Зачем нужен этот ваш сурраунд?

Есть небольшая загвоздка в терминологии, все путаются: то трехмерное звучание, то объемное, то окружающее. Технически, именно окружающее звучание — это тот самый surround, наклейки с которым серебрились на технике из 90-00-х. Именно в окружающем звучании используется многоканальная система, физически окружающая слушателя колонками со всех сторон — и каждая из этих колонок воспроизводит свой канал.

Трехмерного же звучания, по идее, можно достичь намного дешевле, не городя огромный многоканал — с использованием бинауральных записей в наушниках. Фактически, разница в том, что окружающее звучание воссоздает звуковую картину с точки зрения источника, а трехмерное бинауральное — с точки зрения слушателя. Но тут все не так просто.

Бинауральные записи, хоть и существуют уже более сотни лет, не так уж сильно распространены в массовой культуре — и фильмы с аудиодорожками в таком формате не выпускают.

Причина проста: фильмы делают для кинотеатров, где можно — и даже нужно! — разместить вагон и маленькую тележку колонок, озвучивающих отдельные каналы, а вовсе не для просмотра на маленьких телефонах в крохотных наушничках. В 40-х годах, когда окружающее звучание только зарождалось, о таком варианте просмотра кино никто и не задумывался.

Первопроходцем сурраунд-индустрии стал Уолт Дисней — его «Фантазия», над звуком которой потрудились инженеры Bell Labs, стала первой картиной, в которой звук гулял туда-сюда из канала в канал, создавая полноценное окружающее звучание. Шмель жужжал по всему залу — и спасибо стоит сказать специальной многомикрофонной системе, разработанной инженерами Bell Labs, а также аудиосистеме под названием Fantasound.

Это была пятиканальная система: правый, центральный и левый фронтальные каналы плюс правый и левый тыловые. Основной саундтрек воспроизводили на фронтальных каналах, а звук для тыловых записали на отдельной ленте и включали запись в нужные моменты.

Как и с современным качественным суррандом, проблема была в цене: всего в мире установили две системы Fantasound — в Нью-Йорке и в Лос-Анджелесе — и каждая из них стоила 85 000 долларов США. Плюсом ко всему Дисней выпустил еще несколько дорожных вариаций системы по 45 000 долларов, но они не включали в себя колонки окружающего звука.

Fantasound была огромной и дико дорогой

На смену дорогущему формату от Диснея пришла более доступная многоканальная технология от Cinerama и CinemaScope — экраны стали шире, под ними вмещалось больше динамиков, поэтому пришлось создавать стену звука. На пленку магнитным способом удавалось записать до шести звуковых дорожек.

В 4-дорожечном варианте, например, три работали с фронтальными каналами — правым, левым и центральным, а еще одна в формате моно транслировалась на все остальные колонки в кинозале — это была дорожка окружающего звучания, на которую чаще всего записывали звуки эффектов и фоновые шумы. Но и эта система оказалась недостаточно дешевой и потому быстро забылась.

Настоящий фурор произошел в 70-х: пришел Dolby Stereo, который на деле не стерео, а четырехканальный — причем звук записывался оптически. Эту технологию всему миру продали «Звездные войны», вышедшие в 1977 году и поразившие зрителей, помимо прочего, звуком из тыловых каналов — так что владельцы кинотеатров срочно побежали обновлять свои кинозалы, стремясь внедрить Dolby Stereo.

Дальнейшее развитие окружающего звучания тоже связано с Джорджем Лукасом — появилась сертификация THX, а после и новый четырехканальный формат Dolby SR. Но самое раздолье пришлось на 90-е — править бал стала цифра. А с ней и Dolby Digital Surround, DTS, SDDS и EX.

Низким частотам отдали свой собственный канал, который из кинотеатральных систем больше никуда не убегал, а для более высоких частот каналов стало пять — три фронтальных и два боковых канала окружающего звука. Sony пошла дальше и в своем формате SDDS добавила еще два фронтальных канала, дорастив конфигурацию до 7.1, а Dolby в Digital Surround EX поставила отдельный тыловой канал — и получилось 6.1. А иногда ставила и два тыловых — видимо, не желая уступать Sony с ее 7.1.

Вот тогда число каналов в системах — хоть в больших кинотеатрах, хоть в домашних — начало неуклонно расти. Цифра все упростила — с ее приходом воспроизводить многоканальные миксы дома стало проще. Но проблема того, что многоканальная система занимает место и стоит денег, никуда не делась.

И тут на помощь приходят наиболее компактные средства звуковоспроизведения — наушники.

И куда же его запихнуть?

В сущности, от наушников добиться многоканального звука можно двумя способами. Первый — очень сложный с точки зрения конструктива: в две чашки необходимо встроить нужное число излучателей, практически соответствующее числу каналов. В этой сфере все начиналось с квадрозвука, а потом уже пошли более привычные для нас 5.1 и 7.1.

У современных наушников Asus Strix 7.1 по пять динамиков в чашке — они и отыгрывают все эти каналы

Второй же требует большего изящества в области ПО: в нем никто не покушается на стереоприроду наушников, а многоканальность достигается с помощью виртуализации. За это отвечают встроенные или внешние системы, которые разделяют аудиосигнал на составляющие и модифицируют его, чтобы он звучал так, будто бы доносится из нескольких источников.

У первого способа есть один потенциальный плюс: по идее, он выдает более реалистичное объемное звучание. Минусов — причем не потенциальных, а очевидных — больше: такие наушники более тяжелые и дорогие, чем те, которые полагаются на виртуализацию, поскольку их сложнее производить. К тому же, использование нескольких маленьких динамиков вместо одного большого может негативно сказаться на общем качестве звука. Баталии о превосходстве того или иного способа разворачиваются нешуточные — примерно такие же, как между винилом и цифрой.

Забавно, что наушники с виртуализацией окружающего звучания появились в первую очередь из-за фильмов, однако огромный пинок этому сегменту аудиоиндустрии дали видеоигры: окружающее звучание позволяло лучше понимать, где находятся противники, лучше чувствовать игровой мир и происходящие в нем события.

В 2011 году Sony выпустила MDR-DS7500 с собственным предусилителем-микшером, который обрабатывал полноценную многоканальную цифровую аудиодорожку, и назвала их первыми 3D-сурраунд наушниками, однако еще в 2008 году увидела свет гарнитура Razer Megalodon. Она выдавала звук в форматах 5.1 и 7.1 — а если источник не поддерживал эти форматы, то ограничивалась обычным стерео.

В свое время Megalodon стала культовой — нельзя сказать, что она была первой в своем роде, но очарование Razer вместе с крутым дизайном и действительно продуманным подходом к виртуализации звучания сделали свое дело. У этой гарнитуры был пульт, позволяющий по отдельности регулировать громкость каждого виртуального канала, а к источнику — компьютеру — она подключалась по USB.

Поступающий сигнал обрабатывался встроенным DSP: система, используемая Razer, называлась Razer Maelstrom Audio Engine, и в ее основе лежали передаточные функции головы (HRTF), которые она обрабатывала быстрее конкурентов за счет использования фирменных алгоритмов. В общем-то, ничего прорывного в ее системе не было: основа и концепция та же, просто реализация на тот момент оказалась наиболее отточенной — и с широкими возможностями персонализации.

Конец нулевых и начало десятых стали временем расцвета как для гарнитур с полноценными сурраунд-системами (кучей динамиков в чашках), так и для гарнитур с виртуализацией. Сейчас на рынке непросто встретить гарнитуру, в названии которой нет приписки «5.1», «7.1» или еще какой — простое стерео в играх почти не котируется.

С ростом популярности шустрых сессионных соревновательных игр, в которых реакция на появление противника должна быть молниеносной, это вполне логично: если игра выдает звук в многоканальном формате, то система виртуализации, способная его эффективно воспроизвести, дает игроку преимущество — можно точнее определить, откуда в тебя будут стрелять.

Свои собственные алгоритмы для создания виртуального многоканала в наушниках представили и отцы оригинальной технологии: Dolby и DTS выпустили Dolby Headphone и DTS Headphone: X, причем Dolby эту технологию получила еще аж в 1998 году, но в игровую технику ее начали внедрять в 2010-м, а DTS — в 2011-м.

Если Dolby поначалу использовалась лишь несколькими производителями по лицензии, то технология от DTS обещала реалистичный звук формата 11.1 в любых наушниках (но поддерживают ее все-таки не все).

В свое время Headphone:X воспользовался Ханс Циммер: на iOS вышли приложения Z+ Apps, в которых с помощью системы виртуализации звучания от DTS можно было послушать саундтреки композитора в наушниках, но в формате 11.1. Сейчас же ее можно встретить и в новейших моделях геймерских гарнитур.

На смену Dolby Headphone пришла Dolby Atmos for Headphones — стало еще больше эмуляции каналов. Недавно вышло приложение Razer THX Spatial Audio для Windows 10, которое позволяет вручную расставить вокруг себя семь виртуальных колонок и эмулировать их в любых наушниках и любых программах. Программ, на самом деле, много — вот здесь можно найти список, да и то не самый полный.

Почему не работает?

Проблема одна: мозг не так-то просто обдурить. В принципе, игры создают намного больший эффект погружения за счет того, что игрок сам является участником происходящих на экране событий, так что некоторые кривоватости алгоритма виртуализации звучания сглаживаются: главное, что ясно, кто откуда идет и что откуда падает. Однако качественного ощущения расстояния и объема, сопоставимого с полноценной системой, системы наушникового объемного звучания пока создать не могут. При просмотре кино морок рассеивается окончательно.

В тех же «полноценных сурраунд-наушниках» — у которых по несколько динамиков в чашке — эффект не очень осязаем из-за того, что сами динамики расположены слишком близко друг к другу, и разный угол их наклона по отношению к уху, в общем-то, сильной роли не играет.

Система виртуализации объемного звука, в первую очередь, построена на умном использовании задержек: звук доходит до ушей с небольшой паузой, будто бы имитируя расстояние, которое ему требуется преодолеть для того, чтобы каждое ухо — правое и левое — его поймало. Изменение в уровне звукового давления позволяет понять, откуда доносится звук — и здесь тоже нужно работать с обоими ушами.

Старые добрые HRTF-функции зависят от параметров головы: именно за счет этого звук приобретает объем

Главная причина, по которой в звучании таких систем чувствуется ненатуральность — их универсальность. Фишка классического многоканала в том, что мы воспринимаем его всем телом — всей головой и ушами, да даже рост на это дело влияет. Слушатель — это часть аудиосистемы, он тоже в некоторой степени создает ее звучание. Точнее, его физические особенности влияют на то, как он воспринимает звук — и магия пропадает, если убрать его из уравнения.

В большинстве систем виртуализации многоканала, да и в многоканальных наушниках с кучей динамиков, особенности конкретного слушателя не учитываются. Только недавно появились технологии — например, у Creative и Sony, — которые предлагают сфотографировать ухо и уже на основе формы раковины корректируют звучание, персонализируют его под конкретного слушателя. Но таких систем пока еще мало и они не слишком распространены.

Если вернуться к фильмам, то на данный момент на рынке есть, пожалуй, только одни наушники для воспроизведения многоканальных аудиодорожек фильмов — это Sony WH-L600 (и еще вся линейка DS) с поддержкой декодирования Dolby Pro Logic II. Даже родные наушники Dolby — Dimension — не обещают многоканального кинозвука. Однако в них уже дебютировала технология, которую планирует использовать Apple, превращая свои крошечные AirPods в портативный сурраунд-сетап: они отслеживают положение головы и подстраивают звучание в соответствии с ним.

Соотнося положение наушников и экрана портативного устройства, технология будет регулировать звучание относительно изображения и выстраивать виртуальную звуковую сцену на основе этих данных. Конечно, эта функция не даст дополнительной персонализации звучания, но вполне может создать очень качественный погружающий эффект за счет точной локализации источников в пространстве именно по направлению.

Предложит ли Apple фотографировать уши, вводить рост-вес и обхват головы в сантиметрах? Неясно, особенно при том, насколько щепетильно сегодня пользователи относятся к своим личным данным. Но именно эта особенность — учет физических параметров слушателя — отделяет настоящий многоканал от виртуального.

По словам Apple, после обновления ПО, запланированного на осень, в наушниках AirPods Pro можно будет смотреть фильмы с дорожками в форматах 5.1, 7.1 и даже Dolby Atmos. Обновить наушники будет недостаточно — придется обновлять и систему.

Все не просто так

В своих анонсах этой системы виртуализации звучания Apple упирала на то, что создает ее для фильмов — но кто знает, будет ли тот же функционал доступен, например, в мобильных играх. Или в музыкальных приложениях.

И это самый интересный момент, потому что сейчас развитие виртуального многоканала в наушниках идет в первую очередь в играх. Саундбары с тремя динамиками играючи декодируют Dolby Atmos и раскидывают его по крохотным широкополосникам (хоть и с мнимой эффективностью) — а наушникам еще учиться и учиться. Впрочем, появляются различные 360 Audio и Dolby Atmos в Tidal, а также прочие штуки, ориентированные на прослушивание музыки, но популярность они набирают очень медленно.

В принципе, сейчас наблюдается тенденция минимизации сетапов. Персональный звук набирает популярность — проще выбрать себе наушники, чем поставить стереопару, а о многоканале и говорить нечего. И если Apple продемонстрирует технологию виртуализации многоканального звучания, работающую при просмотре видеоконтента хотя бы на средненьком уровне, другие компании начнут за ней повторять.

Нас ожидает вал наушников, ориентированных на декодирование самых разных форматов Dolby и DTS, рост популярности видеостриминговых сервисов, какие-нибудь портативные домашние кинотеатры и прочее. Вполне может быть, что именно геймерские компании первыми начнут выпускать уши, подходящие для кинопросмотра — все-таки какой-то опыт у них уже есть, да и большинство технологий виртуализации заметнее всего внедряются именно в этой сфере.

А пока — ждем.