
Nvidia продемонстрировала ИИ-модель для создания музыки и аудио, способную изменять голоса и генерировать новые звуки.
Технология, названная Fugatto, предназначена для создателей музыки, фильмов и видеоигр.
Нейросеть может генерировать звуковые эффекты и музыку на основе текстовых описаний. Например, она способна создать аудиоклип с “трубой, лающей как собака” или звуком “глубоких, грохочущих басовых импульсов в сочетании с периодическим высокочастотным цифровым щебетом — словно пробуждение огромной разумной машины”.
Отличительной особенностью решения Nvidia является способность анализировать и преобразовывать существующее аудио. Например, она может превратить мелодию, сыгранную на пианино, в исполнение, напоминающее человеческий вокал.
“Если мы подумаем о синтетическом аудио за последние 50 лет, музыка звучит иначе благодаря компьютерам и синтезаторам. Я думаю, что генеративный ИИ привнесет новые возможности в музыку, видеоигры и для обычных людей, которые хотят создавать что-то новое,” — отметил Брайан Катандзаро, вице-президент по исследованиям в области глубокого обучения Nvidia.
Новая модель обучена на основе данных из открытых источников, и компания рассматривает варианты ее представления широкой публике.
“Любая генеративная технология всегда несет в себе некоторые риски, потому что люди могут использовать ее для создания того, чего мы бы не хотели,” — подчеркнул Катандзаро.
Напоминание: Google DeepMind недавно анонсировала разработку технологии на базе искусственного интеллекта для создания саундтреков к видео.