Нейросеть Riffusion генерирует и визуализирует музыку по описанию

Программисты создали модель искусственного интеллекта под названием Riffusion, которая может сочинять музыку из изображения, а если точнее, из аудиоспектрограммы — визуальных изображений звуковых частот. В свою очередь аудиоспектрограмма генерируется по текстовому описанию.

Спектрограммы — это визуальные представления звука, которые показывают амплитуду различных частот во времени. По ним можно определить отдельные ноты и даже инструменты, если знать, на что ориентироваться. И, разумеется, их можно конвертировать обратно в звук, чем и занимается Riffusion.

Часть песни Marconi’s Radio группы Secret Machines,

Созданный на базе Stable Diffusion инструмент сделал спектрограммы нескольких музыкальных композиций и пометил получившиеся изображения соответствующими терминами, такими как «блюзовая гитара», «джазовое пианино», «афробит» и тому подобное. Предоставление модели этой коллекции дало хорошее представление о том, как «выглядят» определённые звуки и как программа может воссоздать или комбинировать их. При этом разработчики смогли заставить нейросеть генерировать такие аудиоклипы, которые могли бы плавно «перетекать» друг в друга. То есть, где темп музыки не меняется резко.

И действительно, модель оказалась способной генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как «причудливое фортепиано», «джазовый саксофон» и так далее.

Примеры созданной ИИ музыки можно оценить по ссылке.

Источник

Поделиться ссылкой:

Total Views: 174 ,

Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Interesting

Нейросеть Riffusion генерирует и визуализирует музыку по описанию

Поделиться ссылкой:

Добавить комментарий Отменить ответ

Поиск

Свежее

Календарь

Посетители

Interesting

Поделиться ссылкой:

Добавить комментарий Отменить ответ

Поиск

Свежее

Метки

Календарь

Посетители