Группа ученых Массачусетсткого технологического института разработала систему, которая выдает настолько реалистичные звуковые эффекты, что люди порой путают их с настоящими. Новый алгоритм симулирует звучание в очень реалистичной манере. Анализируя беззвучное видео, в котором по различным объектам бьют барабанной палочкой, алгоритм подбирает варианты звучания из своей базы данных и озвучивает ролик, причем настолько натурально, что при тестировании многие принимали за оригинал звуковой дорожки именно машинную версию.
Алгоритм работает на основе глубокого изучения, в котором программа автоматически выбирает необходимые паттерны из массива необработанных данных. В течение нескольких месяцев ученые записали около 1 000 видео, на которых извлекли порядка 46 000 звуков, получившихся в результате взаимодействия объектов с барабанной палочкой. Алгоритм же проанализировал эти видео с точки зрения акустических параметров: высоты звука, громкости и прочих.
«Для того, чтобы выдать озвучку нового бесшумного видео, алгоритм анализирует звуковые свойства каждого из отрезков и подбирает максимально похожий кусок в своей базе данных, — объясняет Эндрю Оуэнс, один из ученых. — После чего система распознает все части и склеивает их в одну цельную дорожку».
В будущем такая система поможет роботам лучше взаимодействовать с окружающей средой и распознавать объекты. «Робот может взглянуть на тротуар и сразу же понять: цемент — твердый, а трава — мягкая, и потому представить, что произойдет, когда он наступит на какое-то из этих покрытий. Возможность предугадать звучание — это первый и важный шаг в умении предугадывать варианты физических взаимодействий со средой», — считает Оуэнс.