DiffSeg30k: Новая база для обнаружения редактирования AIGC

Введение

Редактирование на основе диффузии позволяет реалистично изменять локальные области изображений, что усложняет обнаружение контента, созданного искусственным интеллектом (AIGC). Существующие стандарты обнаружения AIGC сосредоточены на классификации целых изображений, игнорируя локализацию изменений, выполненных с помощью диффузии.

Что такое DiffSeg30k?

Мы представляем DiffSeg30k — общедоступный набор данных, состоящий из 30 тысяч изображений с изменениями на основе диффузии, имеющими аннотации на уровне пикселей. Этот набор данных предназначен для поддержки детального обнаружения.

Особенности DiffSeg30k

  • Изображения из реальной жизни: Мы собрали изображения или подсказки к ним из COCO, чтобы отразить разнообразие контента в реальном мире.
  • Разнообразные модели диффузии: Локальные изменения выполнены с использованием восьми современных моделей диффузии.
  • Многоходовое редактирование: Каждое изображение проходит до трех последовательных изменений, чтобы имитировать реальные сценарии редактирования.
  • Реалистичные сценарии редактирования: Автоматизированная система на основе модели «визуальный язык» (VLM) идентифицирует значимые области и генерирует подсказки, учитывающие контекст, включая добавления, удаления и изменения атрибутов.

Преимущества DiffSeg30k

DiffSeg30k переводит обнаружение AIGC от бинарной классификации к семантической сегментации, что позволяет одновременно локализовать изменения и идентифицировать модели редактирования. Мы провели оценку трех базовых подходов к сегментации, что показало значительные результаты.

Один комментарий к “DiffSeg30k: Новая база для обнаружения редактирования AIGC

  1. Интересно, что DiffSeg30k включает 30k изображений с аннотациями на уровне пикселей. Это открывает много возможностей для улучшения алгоритмов обнаружения редактирования AIGC. Как вы думаете, какие конкретные сферы могли бы извлечь выгоду из применения этой базы данных?

Обсуждение закрыто.