Автор: autoposterai

  • Agent0: Автономные агенты, развивающиеся без данных

    Agent0: Автономные агенты, развивающиеся без данных

    Введение в Agent0

    Агенты на основе больших языковых моделей (LLM), часто обучаемые с использованием методов обучения с подкреплением (RL), имеют ограничения, связанные с зависимостью от данных, собранных человеком. Это сужает масштабируемость и привязывает ИИ к человеческому знанию.

    Проблемы существующих подходов

    Существующие системы саморазвития предлагают альтернативу, но обычно ограничены внутренними возможностями модели и однократными взаимодействиями. Это затрудняет разработку сложных учебных курсов, которые требуют использования инструментов или динамического рассуждения.

    Что такое Agent0?

    Мы представляем Agent0 — полностью автономную систему, способную развивать высокоэффективных агентов без использования внешних данных. Это достигается благодаря многоступенчатой коэволюции и бесшовной интеграции инструментов.

    Как работает Agent0

    Agent0 устанавливает симбиотическую конкуренцию между двумя агентами, инициализированными от одной и той же базовой модели LLM:

    • Курсовой агент: предлагает все более сложные задачи на границе возможностей.
    • Исполнительный агент: обучается решать эти задачи.

    Мы интегрируем внешние инструменты для повышения способности исполнителя к решению проблем. Это усовершенствование, в свою очередь, заставляет курсового агента формулировать более сложные, осведомленные о инструментах задачи.

    Результаты и выводы

    Через этот итеративный процесс Agent0 создает самоусиливающийся цикл, который постоянно производит высококачественные учебные курсы. Эмпирически было показано, что Agent0 значительно улучшает способности к рассуждению.

  • Планирование с помощью верификации для генерации видео

    Планирование с помощью верификации для генерации видео

    Введение

    Современные подходы к генерации видео всё чаще используют планирование промежуточных контрольных сигналов, таких как траектории объектов, чтобы улучшить временную согласованность и точность движения. Однако, как правило, эти методы применяют однократные планы, ограниченные простыми движениями, или требуют итеративной доработки, что связано с высокими вычислительными затратами.

    Проблемы существующих методов

    Однократные планы часто недостаточно эффективны, а итеративные подходы требуют многократных вызовов генератора видео, что значительно увеличивает расходы на вычисления. Чтобы преодолеть эти ограничения, мы предлагаем метод SketchVerify.

    Метод SketchVerify

    SketchVerify — это основанная на верификации схема планирования, не требующая обучения. Она улучшает качество планирования движения, обеспечивая более динамично согласованные траектории (т.е. физически правдоподобные и соответствующие инструкциям) перед полной генерацией видео. Это достигается за счет введения процесса выборки и верификации на этапе тестирования.

    Процесс работы

    Данная методика принимает на вход подсказку и эталонное изображение, затем предсказывает несколько кандидатных планов движения и оценивает их с помощью верификатора, который совместно анализирует семантическое соответствие инструкции и физическую правдоподобность. Для эффективной оценки кандидатных планов движения мы представляем каждую траекторию в виде легковесного видео-эскиза, комбинируя объекты на статичном фоне. Это позволяет избежать необходимости в дорогостоящем повторном синтезе на основе диффузии.

  • GeoVista: Моделирование визуального восприятия для геолокации

    GeoVista: Моделирование визуального восприятия для геолокации

    Введение

    Современные исследования в области агентного визуального восприятия позволяют глубоко понимать многомодальные данные, но в основном сосредоточены на инструментах манипуляции изображениями. Это создает пробел в разработке более универсальных агентных моделей.

    Задача геолокации

    В данной работе мы возвращаемся к задаче геолокации, которая требует не только тонкой визуальной привязки, но и веб-поиска для подтверждения или уточнения гипотез в процессе размышлений.

    Проблемы существующих бенчмарков

    Существующие бенчмарки по геолокации не удовлетворяют потребности в высококачественных изображениях и решении задач локализации для глубокого агентного восприятия.

    GeoBench

    Мы разработали GeoBench — новый бенчмарк, который включает фотографии и панорамы со всего мира, а также подмножество спутниковых изображений различных городов. Это позволяет строго оценить способности агентных моделей в области геолокации.

    GeoVista

    Мы также предлагаем GeoVista — агентную модель, которая бесшовно интегрирует использование инструментов в процессе размышлений. Она включает инструмент для увеличения изображения, позволяющий увеличивать интересующие области, и инструмент для веб-поиска, который помогает получать связанную информацию из интернета.

    Обучение модели

    Мы разработали полный процесс обучения для GeoVista, включая этап супервайзинга для изучения паттернов размышлений и использования инструментов, а затем этап обучения с подкреплением, чтобы дополнительно улучшить качество рассуждений.

  • VLA-4D: Новая модель для управления роботами в 4D

    VLA-4D: Новая модель для управления роботами в 4D

    Введение в VLA-4D

    Модели «зрение-язык-действие» (VLA) демонстрируют потенциал для выполнения общих задач робототехники, однако остаются сложными в управлении манипуляциями, требующими четкого учета пространства и времени. Эти задачи требуют точных представлений.

    Проблемы существующих методов

    Существующие подходы обычно встраивают 3D-координаты в визуальные представления для повышения пространственной точности действий. Однако они сталкиваются с трудностями в обеспечении временной согласованности при выполнении действий.

    Модель VLA-4D

    В данной работе мы предлагаем VLA-4D — универсальную модель VLA с 4D-осознанием для согласованного управления роботами в пространственно-временном контексте. Наша модель основывается на двух ключевых принципах:

    1. Визуальное представление с учетом 4D

    Мы извлекаем визуальные характеристики, встраиваем 1D-время в 3D-координаты для создания 4D-встраиваний и объединяем их в единое визуальное представление с помощью механизма взаимного внимания.

    2. Пространственно-временное представление действий

    Мы расширяем традиционные пространственные представления действий, добавляя информацию о времени, чтобы обеспечить пространственно-временное планирование и согласовать многомодальные представления с LLM для предсказания действий.

    Заключение

    В рамках этой унифицированной структуры разработанные визуальные и действующие представления совместно обеспечивают плавность манипуляций робота в пространстве и временную согласованность.

  • OmniScientist: Эволюция совместной работы людей и ИИ в науке

    OmniScientist: Эволюция совместной работы людей и ИИ в науке

    Введение

    С быстрым развитием крупных языковых моделей (LLMs) ИИ-агенты демонстрируют все большую компетентность в научных задачах, включая генерацию гипотез, проектирование экспериментов и написание статей. Такие системы обычно называют «ИИ-учеными». Однако существующие ИИ-ученые в основном рассматривают научные открытия как отдельные задачи поиска или оптимизации, не учитывая, что научные исследования по своей сути являются социальным и совместным процессом.

    Научная инфраструктура

    Научная деятельность в реальном мире зависит от сложной инфраструктуры, включающей в себя механизмы сотрудничества, атрибуцию вклада, рецензирование и структурированные сети научных знаний. Из-за отсутствия модели для этих критически важных аспектов текущие системы испытывают трудности с созданием подлинной исследовательской экосистемы и глубокой интеграцией с человеческим научным сообществом.

    Введение OmniScientist

    Чтобы преодолеть этот разрыв, мы представляем OmniScientist — структуру, которая явно закодирует основные механизмы человеческих исследований в рабочий процесс научного ИИ. OmniScientist не только достигает полной автоматизации на всех этапах — от сбора данных и обзора литературы до генерации идей для исследований, автоматизации экспериментов, научного письма и рецензирования — но и создает основу для сотрудничества между ИИ и учеными.

  • Video-R4: Усовершенствование видеоанализа с текстом

    Video-R4: Усовершенствование видеоанализа с текстом

    Введение

    Понимание видео с текстовой информацией требует внимательного чтения небольших и быстро исчезающих текстовых подсказок, на которые часто нужно обращать внимание несколько раз. Однако большинство моделей видео QA полагаются на однократное восприятие фиксированных кадров, что приводит к ошибкам и неудачам при анализе тонких деталей.

    Идея Video-R4

    Вдохновленные тем, как люди останавливаются, увеличивают изображение и повторно читают важные области, мы представляем Video-R4 (Усиление видеоанализа с текстом через визуальную румминацию). Это модель видеоанализа, которая выполняет визуальную румминацию: итеративно выбирает кадры, увеличивает информативные области, перекодирует извлеченные пиксели и обновляет свое состояние рассуждений.

    Датасеты

    Мы создали два датасета с исполняемыми траекториями румминации:

    • Video-R4-CoT-17k — для контролируемой практики
    • Video-R4-RL-30k — для обучения с подкреплением

    Модель обучения

    Мы предлагаем многоуровневую структуру обучения румминации, которая постепенно дообучает 7B LMM, чтобы научиться атомарным и смешанным визуальным операциям через SFT и RL на основе GRPO.

    Результаты

    Video-R4-7B демонстрирует лучшие результаты на M4-ViteVQA и отлично обобщается на задачи QA с многостраничными документами, слайд-презентациями и общим видео QA. Это подтверждает, что итеративная румминация является эффективной парадигмой для мультимодального анализа, основанного на пикселях.

  • SAM 3: Новый уровень сегментации объектов с концептами

    SAM 3: Новый уровень сегментации объектов с концептами

    Введение в SAM 3

    Мы представляем модель Segment Anything Model (SAM) 3 — унифицированную модель, которая обнаруживает, сегментирует и отслеживает объекты на изображениях и видео на основе концептуальных подсказок. Под концептуальными подсказками мы понимаем краткие именные фразы (например, «жёлтый школьный автобус»), примеры изображений или их комбинацию.

    Подсказочная концептуальная сегментация (PCS)

    Подсказочная концептуальная сегментация (PCS) принимает такие подсказки и возвращает маски сегментации и уникальные идентификаторы для всех совпадающих экземпляров объектов.

    Разработка высококачественного датасета

    Для улучшения PCS мы создали масштабируемый движок данных, который генерирует высококачественный датасет с 4 миллионами уникальных меток концептов, включая сложные негативные примеры, на изображениях и видео.

    Структура модели

    Наша модель состоит из детектора на уровне изображения и видеотрекера на основе памяти, которые используют единую архитектуру. Распознавание и локализация разделены с помощью специальной головы присутствия, что увеличивает точность обнаружения.

    Преимущества SAM 3

    SAM 3 в два раза увеличивает точность существующих систем как в PCS для изображений, так и для видео, а также улучшает предыдущие возможности SAM в задачах визуальной сегментации.

    Открытый исходный код и новый бенчмарк

    Мы открываем исходный код SAM 3 вместе с новым бенчмарком Segment Anything with Concepts (SA-Co) для подсказочной концептуальной сегментации.

  • WorldGen: Создание интерактивных 3D миров из текста

    WorldGen: Создание интерактивных 3D миров из текста

    Введение в WorldGen

    Мы представляем WorldGen — систему, которая позволяет автоматически создавать масштабные интерактивные 3D миры на основе текстовых подсказок. Наш подход преобразует описания на естественном языке в проходимые, полностью текстурированные окружения, которые можно сразу исследовать или редактировать в стандартных игровых движках.

    Как это работает

    WorldGen объединяет несколько технологий:

    • LLM-управляемое планирование сцен: это позволяет создавать логические и осмысленные расстановки объектов.
    • Процедурная генерация: автоматическое создание элементов окружения на основе заданных параметров.
    • Диффузионная 3D генерация: метод, позволяющий создавать высококачественные трехмерные объекты.
    • Объектно-осознанная декомпозиция сцен: позволяет разбивать сложные сцены на отдельные элементы для более легкой работы с ними.

    Преимущества WorldGen

    WorldGen устраняет необходимость в ручном моделировании или специализированных знаниях в 3D графике, позволяя создателям разрабатывать согласованные и проходимые миры. Система полностью модульная и поддерживает детальный контроль над планировкой, масштабом и стилем.

    В результате создаваемые миры являются геометрически последовательными, визуально насыщенными и эффективными для рендеринга в реальном времени. Эта работа представляет собой шаг к доступному генеративному строительству миров на большом масштабе, продвигая границы 3D генеративного ИИ для применения в играх, симуляциях и погружающих социальных средах.

  • OpenMMReasoner: Новые горизонты многомодального рассуждения

    OpenMMReasoner: Новые горизонты многомодального рассуждения

    Введение

    Недавние достижения в области крупных моделей рассуждений вызвали растущий интерес к распространению таких возможностей на многомодальные области. Однако, несмотря на заметный прогресс в визуальном рассуждении, отсутствие прозрачных и воспроизводимых стратегий сбора данных и обучения остается серьезным препятствием для масштабируемых исследований.

    Что такое OpenMMReasoner?

    В этой работе мы представляем OpenMMReasoner — полностью прозрачный двухступенчатый рецепт для многомодального рассуждения, включающий supervised fine-tuning (SFT) и reinforcement learning (RL).

    Этап SFT

    На этапе SFT мы создаем датасет с 874 тысячами образцов, используя строгую пошаговую валидацию, что обеспечивает надежную основу для возможностей рассуждения.

    Этап RL

    Следующий этап RL использует датасет из 74 тысяч образцов из различных областей для дальнейшей доработки и стабилизации этих способностей, что приводит к более надежному и эффективному процессу обучения.

    Результаты и выводы

    Обширные оценки показывают, что наш тренировочный рецепт не только превосходит сильные базовые модели, но и подчеркивает критическую роль качества данных и дизайна обучения в формировании производительности многомодального рассуждения. Наша методика демонстрирует 11.6% улучшение по сравнению с базовой моделью Qwen2.5-VL-7B-Instruct на девяти бенчмарках многомодального рассуждения, устанавливая новые стандарты в этой области.

  • O-Mem: Новая система памяти для персонализированных агентов

    O-Mem: Новая система памяти для персонализированных агентов

    Введение

    Недавние достижения в области агентов на базе больших языковых моделей (LLM) продемонстрировали значительный потенциал в создании ответов, похожих на человеческие. Однако они продолжают сталкиваться с трудностями в поддержании долгосрочных взаимодействий в сложных условиях, в первую очередь из-за ограничений в контекстной согласованности и динамической персонализации.

    Проблемы существующих систем памяти

    Существующие системы памяти часто зависят от семантической группировки перед извлечением информации, что может игнорировать семантически несущественную, но критически важную информацию о пользователе и вводить шум в извлечение данных.

    Предложение O-Mem

    В этом отчете мы предлагаем первоначальный дизайн O-Mem — новой системы памяти, основанной на активном профилировании пользователей, которая динамически извлекает и обновляет характеристики пользователей и записи событий на основе их активных взаимодействий с агентами.

    Ключевые особенности O-Mem

    • Поддержка иерархического извлечения атрибутов личности и контекста, связанного с темой.
    • Обеспечение более адаптивных и согласованных персонализированных ответов.

    Результаты

    O-Mem достиг 51.67% на публичном бенчмарке LoCoMo, что почти на 3% лучше, чем LangMem, предыдущая передовая модель. На тесте PERSONAMEM O-Mem показал 62.99%, что на 3.5% лучше, чем A-Mem, предыдущая модель. O-Mem также повысил эффективность времени отклика токенов и взаимодействий по сравнению с предыдущими системами памяти.