melba | Как мы с ИИ музыку сочиняли (Reply)

Наигравшись с нейросетями, генерирующими картинки и видео, я решила переключиться на музыкальные сервисы. Про ИИ-музыку я слышала всякое и особых надежд не питала, но надо же попробовать самому, прежде чем делать выводы.

Поскольку в юности я играла на гитаре, то мне хотелось сосредоточиться на таком же теплом ламповом звучании, без сложных аранжировок и заведомо недоступных ИИ жанров. Я заказала песню на русском языке про дороги, исполненную мужским голосом под гитару, и стала ждать результата, ехидно хихикая.

man-guitar

Получив демо-версию, я упала со стула. Во-первых, это было очень смешно, а, во-вторых, качество оказалось гораздо лучше, чем я рассчитывала – в том смысле, что звучание голоса и инструмента было очень естественным, в гораздо большей степени, чем все эти ваши синтетические струнные, которых полно в стоковой музыке. Воодушевившись, я стала подсовывать роботам нормальные тексты, натыренные в Сети, и очень скоро получила свой первый хит.

«Чай и пряники», слова Ларисы Миллер, музыка народная.

Песенка оказалась дико привязчивой, и это неудивительно, ведь нейросети обучаются на самых популярных образцах. Тут надо сказать два слова про модель, которой я пользуюсь. В рейтинге музыкальных ИИ Udio занимает второе место. Самую лучшую нейросеть, Suno, я протестировать не смогла, потому что для регистрации они требуют номер телефона. Что до прочих бесплатных сервисов – они и в подметки не годятся Udio и на все запросы выдают шаблонную попсу.

Инструментов управления роботом-музыкантом не очень много: можно задать жанр, инструментовку, тип вокала, размер и даже последовательность аккордов, но результат все равно будет непредсказуемым. По опыту, чем меньше ограничений, тем лучше. Иногда нейросеть отходит от задания очень удачно и даже творчески – вот, например, что у меня получилось с -надцатой попытки сгенерировать бардовскую песню про дороги. К сожалению, вместо половины текста робот спел тарабарщину, а опция редактирования трека есть только в платной версии.

Автор текста – Владимир Динец. Названия трекам ИИ придумывает сам, я тут ни при чем %)

Непредсказуемость результатов – бич всех нейросетей, и внезапный переход вокалиста, скажем, на японский язык, так же удручает, как и шестой палец на руке, разрушающий магию безупречной в остальном картинки. Готовый трек можно перемикшировать, но в большинстве случаев получается только хуже. Еще из забавного – судя по всему, программисты скармливали нейросети очень много песен в исполнении Бориса Гребенщикова: если задать жанр авторской песни, с вероятностью 25% вы услышите очень похожий на БГ голос с характерными интонациями. А вот сочинять хоть сколько-то сносные тексты ИИ так и не научился – во всяком случае, на русском языке. Вот пример, о котором я писала в начале поста. Нейросеть очень трогательно имитирует модуляции голоса, структуру песни и прочие элементы формы, а вот содержание – ниже плинтуса.

Скажи мне, где ты.

Еще одна задача, которую, как оказалось, роботы выполнить не в состоянии, – это вокальный дуэт. Можно сколько угодно писать в промпте «дуэт мужчины и женщины» – нейросеть будет упорно это игнорировать. Умельцы как-то ухитряются включать в песню два разных голоса, но они все равно будут петь по одиночке. Зато гармонизация (пение «на два голоса») с одним вокалистом получается неплохо.

В общем, пока развлекаюсь, вдруг что еще прикольное получится :)