MergeDNA: Моделирование генома с учетом контекста

Введение в проблемы моделирования геномных последовательностей

Моделирование геномных последовательностей сталкивается с двумя основными проблемами: плотность информации значительно варьируется в различных регионах, и отсутствует четко определенная минимальная единица словаря. Существующие подходы, основанные на четырех примитивных основаниях или специально разработанных токенизаторах ДНК, часто не справляются с изменяющейся сложностью геномных последовательностей из-за использования наивного маскированного языкового моделирования.

Предложение MergeDNA

Используя техники объединения токенов, данная работа представляет иерархическую архитектуру, которая совместно оптимизирует динамический токенизатор генома и латентные трансформеры с задачами предобучения, учитывающими контекст.

Структура сети

В токенизационном модуле соседние основания автоматически группируются в слова благодаря множеству слоев дифференцируемых блоков объединения токенов с локальными оконными ограничениями. Затем латентный кодер захватывает глобальный контекст этих объединенных слов через блоки полного внимания.

Обучение MergeDNA

Симметрично применяя латентный декодер и локальный декодер, MergeDNA обучается с помощью двух задач предобучения:

  • Реконструкция объединенных токенов: одновременно обучает динамический модуль токенизации и адаптивно фильтрует важные токены.
  • Маскированное моделирование токенов: учится предсказывать отфильтрованные токены.