Нейросеть научилась конвертировать монофонические саундтреки в бинауральные по видеоряду • Stereo.ru

Звук в кино способствует максимальному погружению в действие, происходящее на экране. Стерео- и многоканальные системы позволяют расставить источники звука на аудиосцене, но монодорожка для этого подходит плохо. Однако исследователи из Университета Техаса и команды Facebook Research научили нейросеть распознавать источники звука в монофонических саундтреках по прилагающемуся к ним видеоряду и превращать саундтрек в объемный.

Наш мозг позволяет нам определить местоположение объекта за счет фазового сдвига: левое ухо слышит раздающийся слева звук чуть раньше, чем правое, и наоборот. Также для левого уха объект слева будет громче, чем для правого. Раздающийся спереди звук достигает ушей без препятствий, а сзади ему мешают ушные раковины. Сама форма ушей также помогает расположить объекты в пространстве.

Разработанная исследователями система получила название «2.5D Viual Sound»: она определяет источник звука по изображению и затем искусственным образом искажает аудиодорожку отдельно для правого и левого каналов с учетом фазовых сдвигов и разницы в громкости. Основой нейросети, которая этим занимается, стала база данных из 2 000 видеозаписей с бинауральным аудио. На этой базе алгоритм учился определять, какой именно объект издает звук.

Идеальной систему назвать, конечно, нельзя: она не сможет определить положение источника звука, которого нет на видео, и не распознает источник, которого нет в ее базе (но базу впоследствии можно расширить).