Инструмент искусственного интеллекта DiffUHaul от Nvidia может перемещать объекты на изображениях
Исследователи из компании Nvidia опубликовали на сайте статью о новом инструменте искусственного интеллекта DiffUHaul, который может понимать и перемещать объекты внутри изображения, не изменяя его размер или фон. В статье говорится, что инструмент "использует пространственное понимание локализованной модели "текст-изображение" для задачи перетаскивания объектов"
Современные модели преобразования текста в изображение с трудом справляются со сложными задачами редактирования изображений, поскольку им не хватает "пространственного мышления" DiffuHaul решает эту проблему, добавляя его в модель, позволяя ей отслеживать объекты на изображении, "бесшовно" перемещая их, не изменяя ничего другого.
Чтобы добиться этого, инструмент маскирует объект на этапах денуазинга, помогая понять его местоположение и отделить от фона. Затем он интерполирует разницу между исходным и сгенерированным изображением, чтобы поместить объект в новое положение, не затрагивая фон. После этого более мелкие детали и особенности из исходного изображения переносятся в новое для согласованности.
DiffUHaul основан на BlobGENмодели, которая использует пространственное понимание для составления изображений из сложных подсказок. В статье говорится, что инструмент не требует обучения, а это значит, что он был создан без каких-либо наборов данных и работает "из коробки".