Введение
Больницы и системы здравоохранения принимают операционные решения, которые влияют на поток пациентов, затраты и качество ухода. Несмотря на хорошие показатели в области медицинских знаний и разговорных стандартов, модели, обученные на общих текстах, могут не иметь специализированных знаний, необходимых для этих решений.
Представляем Lang1
Мы представляем Lang1, семейство моделей (100М-7Б параметров), предварительно обученных на специализированном корпусе, который объединяет 80 миллиардов клинических токенов из электронных медицинских записей NYU Langone Health и 627 миллиардов токенов из интернета.
Оценка Lang1 в реальных условиях
Чтобы строго оценить Lang1 в реальных условиях, мы разработали REalistic Medical Evaluation (ReMedE) — стандарт, основанный на 668,331 заметках из медицинских записей, который оценивает пять критически важных задач:
- Прогнозирование повторной госпитализации в течение 30 дней
- Прогнозирование смертности в течение 30 дней
- Длительность пребывания
- Кодирование сопутствующих заболеваний
- Прогнозирование отказов в страховых выплатах
Результаты оценки
В условиях нулевой подгонки как общие, так и специализированные модели показывают низкие результаты по четырем из пяти задач (36.6%-71.7% AUROC), причем прогнозирование смертности является исключением. После дообучения Lang1-1B превосходит дообученные модели общего назначения, которые в 70 раз больше, и модели с нулевой подгонкой, которые в 671 раз больше, улучшая AUROC на 3.64%-6.75% и 1.66%-23.66% соответственно.
Специализированные модели, такие как Lang1, действительно показывают эффективность в оптимизации клинических операций, что подтверждается их успешными результатами в критических задачах. Интересно, как такие подходы могут быть адаптированы для различных типов учреждений здравоохранения, учитывая разные масштабы и ресурсы. Как вы считаете, какие факторы могут влиять на внедрение подобных моделей в меньших больницах?
В статье интересно подмечено, что универсальные модели неэффективны для клинических операций, и это действительно важный момент. Специализированные модели, такие как Lang1, показывают отличные результаты в критических задачах здравоохранения. Будет любопытно узнать, как дальнейшие разработки могут улучшить эти результаты и какие конкретные примеры уже существуют в практике.