Использование слов для поиска мест в 3D -средах

Использование слов для поиска мест в 3D -средах

16 июля 2025 г.

Аннотация и 1. Введение

  1. Связанная работа

  2. Метод

    3.1 Обзор нашего метода

    3.2 грубое извлечение текстовых клеток

    3.3 Оценка прекрасной позиции

    3.4 Цели обучения

  3. Эксперименты

    4.1 Описание набора данных и 4.2 Подробная информация

    4.3 Критерии оценки и 4.4 результаты

  4. Анализ производительности

    5.1 Исследование абляции

    5.2 Качественный анализ

    5.3 Анализ встраивания текста

  5. Заключение и ссылки

Дополнительный материал

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

Анонимные авторы

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

Анонимные авторы

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

2.1 Признание 3D PLATE

Распознавание трехмерного места направлена на то, чтобы соответствовать изображению запроса или сканирования LIDAR локальной области с базой данных трехмерных облаков точек, чтобы определить местоположение и ориентацию запроса относительно эталонной карты. Этот метод может быть классифицирован на два подхода, то есть на основе плотной точки и на основе разреженного вокселя [46]. В частности, PointNetVlad [36] представляет собой основополагающую работу в потоке плотной точки, извлекая функции с помощью PointNet [29] и агрегирует их в глобальный дескриптор через Netvlad [2]. С появлением трансформатора [38] во многих исследованиях [12, 15, 25, 53] были использованы механизмы внимания, чтобы подчеркнуть значительные локальные особенности для распознавания места. Напротив, методы, основанные на вокселе, начинаются с воклизующих трехмерных облаков, повышающих надежность и эффективность. MinkLoc3d [22] извлекает локальные функции из разреженных вокселизованных точек, используя сеть пирамид, с последующим объединением с образованием глобального дескриптора. Тем не менее, вокселизация может привести к локальной потере информации. Управляя это, CASSPR [41] сочетает в себе вокселисные и точечные преимущества с двойным иерархическим трансформатором с двойной ветвью. Отрываясь от обычной зависимости облака точечных облаков, в нашем методе используются описания естественного языка, чтобы указать целевые местоположения, предлагая новое направление в 3D -локализации.

2.2 Языковая 3D-локализация

Языковая 3D-локализация направлена на определение позиции на городской карте 3D-точки в масштабе города на основе описания языка. Text2pos [21] пионерует это поле, разделяя карту на ячейки и используя грубую методологию, которая первоначально идентифицирует приблизительные местоположения посредством поиска и впоследствии уточняет оценку позы посредством регрессии. Крупный этап соответствует функциям и описанию ячейки и описания в общем пространстве встраивания, в то время как тонкая стадия проводит сопоставление функций на уровне экземпляра и вычисляет позиционные смещения для окончательной локализации. Тем не менее, этот метод упускает из виду отношения между подсказками и экземплярами облака точек. Управляя этот пробел, RET [39] включает в себя усиление к отношениям, чтобы анализировать как подсказки, так и экземпляры, и использует перекрестное взаимодействие в регрессии для улучшения многомодальной интеграции признаков. Text2loc [42] использует предварительно обученную языковую модель T5 [33] и иерархический трансформатор для улучшения текста, внедряющего и вводит бесплатный подход к тонкой локализации, используя каскадный трансформатор поперечного амортизации для превосходного мультимодального слияния. Используя контрастное обучение, Text2loc значительно превосходит существующие модели с точностью. Тем не менее, текущие методы зависят от экземпляров-территории земли в качестве входных данных, которые являются дорогостоящими для новых сред и не могут полностью использовать информацию о относительной позиции.

2.3 Понимание трехмерного видения и языка

В сфере 3D видения и понимания языка были достигнуты значительные шаги в внутренних сценариях [17, 44, 47, 48]. ScanRefer [5] и Refert3d [1] установите начальные тесты для трехмерного визуального заземления посредством выравнивания аннотаций объекта с описаниями естественного языка на сканете [11]. Последующее исследование [40, 45, 50] улучшают производительность, включив дополнительные функции, такие как функции 3D экземпляра, 2D-предварительные функции и анализируемые лингвистические функции для повышения производительности. Трехмерная плотная подвеска [7] подчеркивает подробное описание атрибутов объекта и также была уточнена путем интеграции различных методов трехмерного понимания [3, 6, 49]. И наоборот, наружный домен остается относительно неиспользованным, с большинством существующих наборов данных [20, 26, 28] полагаются на 2D -входы. Недавно набор данных TOD3CAP [18] приносит 3D плотную подпись в сценарии на открытом воздухе. Соответствующая модель использует 2D-3D-представления и объединяет соотношение Q-форматора с лама-адаптером [51] для получения подробных подписей для объектов. В отличие от существующих работ, мы сосредоточены на задаче локализации в масштабе от открытого города в масштабах текста до точки, стремясь преодолеть разрыв в 3D-видении на открытом воздухе и интеграции языка.

Авторы:

(1) Lichao Wang, FNII, Cuhksz (wanglichao1999@outlook.com);

(2) Zhihao Yuan, FNII и SSE, Cuhksz (zhihaoyuan@link.cuhk.edu.cn);

(3) Jinke Ren, FNII и SSE, Cuhksz (jinkeren@cuhk.edu.cn);

(4) Shuguang Cui, SSE и FNII, Cuhksz (shuguangcui@cuhk.edu.cn);

(5) Чжэнь Ли, автор -соответствующий автор из SSE и FNII, Cuhksz (lizhen@cuhk.edu.cn).


Эта статья естьДоступно на Arxivв соответствии с CC BY-NC-ND 4.0 DEED (Атрибуция-Нонкоммерка-Noderivs 4.0 International).


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE