Разработчики стримингового сервиса Deezer разработали на основе нейросети систему, которая определяет музыкальное настроение песни. Основной стали тексты песен и мелодия. Результаты разработки опубликованы в статье на Arxiv.org.
Сначала нейросети «скормили» аудиосигналы и модели, по которым можно реконструировать лингвистический контекст текста песен. Затем нейросеть обучили на примерах, используя базу данных Million Song Dataset (MSD), включающую в себя метаданные более миллиона популярных треков, в том числе и теги с Last.fm. На основе этих тегов (содержащих более 14 000 англоязычных слов) составили шкалу настроения, слова в которой разделили на две категории: грустные/веселые и спокойные/энергичные.
В базе данных MSD содержатся только метаданные треков, но не сами треки, поэтому разработчики нашли необходимые песни в базе данных Deezer, и около 60% (18 644 композиции) использовали для обучения нейросети. В итоге выяснилось, что система определяет настроение песни с большей точностью, чем другие методы, не использующие искусственный интеллект и нейросети.
По мнению разработчиков, идеальным подспорьем для такой системы стала бы база данных, в которых тексты песен синхронизированы с мелодией, поскольку в таком случае система смогла бы рассматривать настроение треков более гибко. Как известно, та песня, которая одному слушателю кажется радостной, другому может показаться грустной, и системе необходимо это определить.
По мнению исследователей, такая разработка поможет лучше понять, каким образом между собой коррелируют тексты песен, мелодия и настроение, а также создать систему, способную рассортировать большие объемы данных и найти среди них нужные.
Очень интересно, каким же, по мнению системы, является настроение песни «Bullet» от Hollywood Undead?