Harmony: Синхронизация аудио и видео через синергию задач

Введение

Создание синхронизированного аудиовизуального контента является ключевой задачей в области генеративного ИИ. Открытые модели сталкиваются с трудностями в надежной согласованности аудио и видео.

Проблемы синхронизации

Наш анализ показывает, что эта проблема коренится в трех основных вызовах совместного диффузионного процесса:

  1. Сдвиг соответствия: Эволюция шумных латентных переменных мешает стабильному обучению согласования.
  2. Неэффективные механизмы глобального внимания: Они не способны захватывать тонкие временные сигналы.
  3. Внутримодальный уклон традиционного Classifier-Free Guidance (CFG): Улучшает условность, но не синхронизацию между модальностями.

Решение проблемы

Чтобы преодолеть эти трудности, мы представляем Harmony — новую структуру, которая механически обеспечивает синхронизацию аудиовизуального контента.

Синергия задач

Сначала мы предлагаем парадигму обучения Cross-Task Synergy, чтобы уменьшить сдвиг, используя сильные контрольные сигналы от задач генерации видео на основе аудио и аудио на основе видео.

Модуль взаимодействия

Затем мы разрабатываем модуль Global-Local Decoupled Interaction для эффективного и точного временного согласования стилей.

SyncCFG

Наконец, мы представляем новый Synchronization-Enhanced CFG (SyncCFG), который явно изолирует и усиливает сигнал согласования во время вывода.