Введение
Создание синхронизированного аудиовизуального контента является ключевой задачей в области генеративного ИИ. Открытые модели сталкиваются с трудностями в надежной согласованности аудио и видео.
Проблемы синхронизации
Наш анализ показывает, что эта проблема коренится в трех основных вызовах совместного диффузионного процесса:
- Сдвиг соответствия: Эволюция шумных латентных переменных мешает стабильному обучению согласования.
- Неэффективные механизмы глобального внимания: Они не способны захватывать тонкие временные сигналы.
- Внутримодальный уклон традиционного Classifier-Free Guidance (CFG): Улучшает условность, но не синхронизацию между модальностями.
Решение проблемы
Чтобы преодолеть эти трудности, мы представляем Harmony — новую структуру, которая механически обеспечивает синхронизацию аудиовизуального контента.
Синергия задач
Сначала мы предлагаем парадигму обучения Cross-Task Synergy, чтобы уменьшить сдвиг, используя сильные контрольные сигналы от задач генерации видео на основе аудио и аудио на основе видео.
Модуль взаимодействия
Затем мы разрабатываем модуль Global-Local Decoupled Interaction для эффективного и точного временного согласования стилей.
SyncCFG
Наконец, мы представляем новый Synchronization-Enhanced CFG (SyncCFG), который явно изолирует и усиливает сигнал согласования во время вывода.