Ученые из Принстонского университета разработали технологию, которая позволит с легкостью менять слова в аудиозаписи, просто напечатав нужный текст на экране компьютера.

Программа VoCo позволяет добавлять или менять слова в аудиозаписи человеческого голоса через редактирование стенограммы записи. При этом новые слова автоматически воспроизводятся голосом говорящего, даже если он нигде на записи таких слов не произносил. Для этого система использует сложный алгоритм, который изучает и воссоздает звук конкретного голоса.

Технология может найти применение в робототехнике при создании персонализированных голосов, звучащих естественно.

Пользовательский интерфейс VoCo схож с популярными программами для редактирования аудиозаписей, такими, как Audacity или Apple GarageBand. Пользователь видит аудиофайл в форме звуковой дорожки — ее можно редактировать с помощью инструментов копирования, вырезания и вставки. В отличие от Audacity или GarageBand, VoCo анализирует звуковую дорожку и делает расшифровку ее стенограммы. Пользователь может менять слова в записи, просто впечатывая нужные в расшифровку.

Когда пользователь вводит новое слово, VoCo обновляет звуковую дорожку, автоматически синтезируя слово путем сшивания аудиофрагментов, взятых из других слов, присутствующих в записи. Раньше подобное можно было проделать вручную, выделяя фрагменты звуковой дорожки, отвечающие за определенную букву, копируя их и сшивая вместе.

«VoCo автоматизирует процесс поиска и сшивания и дает результаты, которые обычно звучат даже лучше, чем созданные вручную экспертами по звуку, — говорит Адам Финкельштейн (Adam Finkelstein), профессор информатики из Принстона. — В основе VoCo лежит алгоритм оптимизации, который ищет голосовую запись и выбирает наилучшие комбинации парциальных тонов, называемых „фонемами“, для создания новых слов голосом пользователя».

Программа ищет не только отдельные фонемы, но и их последовательности для бесшовной склейки. Чтобы определить интонацию, которую необходимо придать новому слову в аудиозаписи, VoCo анализирует контекст, синтезируя все предложение из расшифровки искусственным голосом. Эта запись приводится в соответствие с реальной записью человеческого голоса в исходном треке методом, получившим название «voice conversion», или «преобразование голоса».