Fugatto 1 от Nvidia может синтезировать аудио для создания новых звуков
Компания Nvidia продемонстрировала новую генеративную модель искусственного интеллекта, которая может синтезировать звук с помощью простых текстовых инструкций и контекстных аудиовходов для создания уникальных звуков. Nvidia представляет себе Fugatto 1 "как инструмент для творческих людей, позволяющий им быстро воплощать в жизнь свои звуковые фантазии и неслыханные звуки - инструмент для воображения, а не замена творчеству"
В своей исследовательской работе, опубликованной на сайте https://fugatto.github.io/FUGATTO_ICLR_2025.pdfкоманда говорит, что большие языковые модели (Large Language Models, LLM), обученные на тексте, могут научиться выводить инструкции из входных данных, но LLM, обученные исключительно на аудио, не могут этого сделать. Аудио не содержит данных, показывающих, как оно было создано.
В Fugatto 1 от Nvidia используется специализированный набор данных, в котором собраны самые разные звуки, а также метод понимания и управления инструкциями под названием ComposeableART. Это позволяет модели создавать эмерджентный набор данных, который может помочь модели комбинировать различные звуки, даже те, которым она не была обучена.
Nvidia продемонстрировала несколько примеров модели в действии на странице Fugatto на Githubнапример, способность синтезировать звук собачьего лая в такт электронной танцевальной музыке, пишущую машинку, которая шепчет каждую набранную букву, и даже саксофон, который мяукает или лает.
Пока что Nvidia не планирует публично выпускать эту модель.