Группа ученых из Microsoft Research Asia опубликовала исследование, посвященное технологии DeepSinger, которая представляет собой «первую систему синтеза вокала (Singing Voice Synthesis), основанную на данных из сети».
Если верить докладу Microsoft, «синтезатор пения» DeepSinger создавался с нуля, а учился этот умный алгоритм на музыкальных композициях, которые смог найти на различных сайтах.
Синтезатор DeepSinger сначала разбивал треки на инструментальные и вокальные партии, затем делил вокал на предложения и фонемы. Все эти данные впоследствии дополнительно обрабатывались с цель создать «модель пения», которая, в свою очередь, базируется на технологии Microsoft FastSpeech.
На сегодняшний день ученым удалось добиться искусственного пения на китайской и английском. Послушать синтезированный вокал можно на специальной странице проекта.
На сегодняшний день DeepSinger еще не доработан, и до коммерческого использования пока далеко, однако Microsoft планируют продолжить работу и сделать синтезатор вокала еще более качественным и реалистичным.