Эти звуки вы никогда не слышали: Nvidia представила ИИ-модель для генерации аудио

gettyimages 2168167041 8e69b46462b943759b56019e4fb27455

Nvidia продемонстрировала ИИ-модель для создания музыки и аудио, способную изменять голоса и генерировать новые звуки.

Технология, названная Fugatto, предназначена для создателей музыки, фильмов и видеоигр.

Нейросеть может генерировать звуковые эффекты и музыку на основе текстовых описаний. Например, она способна создать аудиоклип с “трубой, лающей как собака” или звуком “глубоких, грохочущих басовых импульсов в сочетании с периодическим высокочастотным цифровым щебетом — словно пробуждение огромной разумной машины”.

Отличительной особенностью решения Nvidia является способность анализировать и преобразовывать существующее аудио. Например, она может превратить мелодию, сыгранную на пианино, в исполнение, напоминающее человеческий вокал.

“Если мы подумаем о синтетическом аудио за последние 50 лет, музыка звучит иначе благодаря компьютерам и синтезаторам. Я думаю, что генеративный ИИ привнесет новые возможности в музыку, видеоигры и для обычных людей, которые хотят создавать что-то новое,” — отметил Брайан Катандзаро, вице-президент по исследованиям в области глубокого обучения Nvidia.

Новая модель обучена на основе данных из открытых источников, и компания рассматривает варианты ее представления широкой публике.

“Любая генеративная технология всегда несет в себе некоторые риски, потому что люди могут использовать ее для создания того, чего мы бы не хотели,” — подчеркнул Катандзаро.

Напоминание: Google DeepMind недавно анонсировала разработку технологии на базе искусственного интеллекта для создания саундтреков к видео.