Введение в проблемы моделирования геномных последовательностей
Моделирование геномных последовательностей сталкивается с двумя основными проблемами: плотность информации значительно варьируется в различных регионах, и отсутствует четко определенная минимальная единица словаря. Существующие подходы, основанные на четырех примитивных основаниях или специально разработанных токенизаторах ДНК, часто не справляются с изменяющейся сложностью геномных последовательностей из-за использования наивного маскированного языкового моделирования.
Предложение MergeDNA
Используя техники объединения токенов, данная работа представляет иерархическую архитектуру, которая совместно оптимизирует динамический токенизатор генома и латентные трансформеры с задачами предобучения, учитывающими контекст.
Структура сети
В токенизационном модуле соседние основания автоматически группируются в слова благодаря множеству слоев дифференцируемых блоков объединения токенов с локальными оконными ограничениями. Затем латентный кодер захватывает глобальный контекст этих объединенных слов через блоки полного внимания.
Обучение MergeDNA
Симметрично применяя латентный декодер и локальный декодер, MergeDNA обучается с помощью двух задач предобучения:
- Реконструкция объединенных токенов: одновременно обучает динамический модуль токенизации и адаптивно фильтрует важные токены.
- Маскированное моделирование токенов: учится предсказывать отфильтрованные токены.