Визуальное Мышление и Текстовое Рассуждение: Синергия Визии и Языка

Введение

Абстрактное рассуждение на основе минимальных примеров остается важной нерешенной задачей для современных моделей, таких как GPT-5 и Grok 4. Эти модели по-прежнему не могут вывести структурированные правила трансформации из небольшого числа примеров, что является ключевой чертой человеческого интеллекта.

Корпус Абстракции и Рассуждения

Корпус Абстракции и Рассуждения для Искусственного Общего Интеллекта (ARC-AGI) предоставляет строгую испытательную базу для этой способности, требуя индукции концептуальных правил и их применения к новым задачам. Большинство существующих методов рассматривают ARC-AGI как задачу, основанную исключительно на текстовом рассуждении, игнорируя тот факт, что люди в значительной степени полагаются на визуальную абстракцию при решении таких головоломок.

Парадокс Первоначальных Экспериментов

Однако наши предварительные эксперименты выявляют парадокс: простое представление решеток ARC-AGI в виде изображений ухудшает производительность из-за неточного выполнения правил. Это приводит нас к нашей центральной гипотезе о том, что визуальное восприятие и язык обладают взаимодополняющими сильными сторонами на различных стадиях рассуждения.

Синергия Визии и Языка

Визуальное восприятие поддерживает глобальную абстракцию паттернов и верификацию, в то время как язык специализируется на формулировании символических правил и их точном выполнении. Основываясь на этом понимании, мы предлагаем две синергетические стратегии:

  • Синергетическое Рассуждение Визии и Языка (VLSR), которое декомпозирует ARC-AGI на…
  • Дополнительная стратегия, которая…