Новый эталон в локализации на языке зрения

Новый эталон в локализации на языке зрения

16 июля 2025 г.

Аннотация и 1. Введение

  1. Связанная работа

  2. Метод

    3.1 Обзор нашего метода

    3.2 грубое извлечение текстовых клеток

    3.3 Оценка прекрасной позиции

    3.4 Цели обучения

  3. Эксперименты

    4.1 Описание набора данных и 4.2 Подробная информация

    4.3 Критерии оценки и 4.4 результаты

  4. Анализ производительности

    5.1 Исследование абляции

    5.2 Качественный анализ

    5.3 Анализ встраивания текста

  5. Заключение и ссылки

Дополнительный материал

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

Анонимные авторы

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

4.3 Критерии оценки

В соответствии с текущими исследованиями мы принимаем отзыв вверху 𝑘 (для 𝑘 = 1, 3, 5) в качестве нашего метрики для оценки грубой стадии возможности извлечения текстовых клеток. Для оценки тонкой стадии мы используем нормализованную ошибку расстояния евклидовы между положением Loundtruth и прогнозируемой позицией. Между тем, чтобы оценить комплексную эффективность нашего IFRP-T2P, мы оцениваем эффективность локализации на основе лучших результатов поиска, где 𝑘 установлено на 1, 5 и 10, и впоследствии сообщают об отзыве локализации. Отзыв о локализации определяется количественно как доля текстового запроса, точно локализованного в предопределенных полях ошибок, которая обычно составляет менее 5, 10 или 15 метров.

4.4 Результаты

Локализация трубопровода.Чтобы провести всестороннюю оценку IFRP-T2P, мы сравниваем нашу модель с тремя современными моделями [21, 39, 42] в двух сценариях: один принимает экземпляр грунтовой истины как вход, а другой использует необработанное облако точки в качестве входного ввода. В контексте сценария облака необработанных точек мы дополнительно сравниваем нашу модель с базовыми базовыми показателями 2D и 3D визуальной локализации, в частности, Netvlad [2] и PointNetVlad [36], чтобы продемонстрировать эффективность нашей мультимодальной модели. Мы сообщаем о результате Netvlad, доступном в Text2pos. Для PointNetVlad мы используем нисходящую одну треть центральную область облака клеточных точек в качестве запроса для извлечения верхних ячеек и применения центра ячейки в качестве основанной позиции, аналогичной настройки NetVlad в Text2PO. В таблице 1 иллюстрирует топ-𝑘 (𝑘 = 1/5/10) частота отзыва различных порогов ошибок 𝜖 <5/10/15𝑚 для сравнения. Наш IFRP-T2P достигает 0,23/0,53/0,64 в TOP-1/5/10 при границе ошибок 𝜖 <5𝑚 при наборе валидации. В сценарии, где необработанное облако точки применяется в качестве ввода, наша модель превосходит Text2loc с предыдущей моделью сегментации экземпляров на 27%/23%/17%в TOP-1/5/10 под границей ошибок 𝜖 <5𝑚. Сравнивая с Text2Loc, наша модель показывает сопоставимую производительность - нанесение всего лишь 17%/8%/7%при TOP1/5/10 в соответствии с границей ошибок 𝜖 <5𝑚. Обратите внимание, что мы сообщаем о результате нашего воспроизведенного Text2loc и значений, доступных в исходной публикации RET и Text2PO. Эта тенденция также наблюдается в тестовом наборе, указывая на нашу модель IFRP-T2P, эффективно снижает зависимость от экземпляров истины земли в качестве входных данных и эффективно интегрирует относительную информацию о положении в процесс крупной к покровому локализации для повышения общей производительности локализации. Кроме того, наша модель превосходит Netvlad и PointNetVlad

Table 4: Ablation study of the row-column relative position-aware self-attention (RowColRPA) in coarse stage. “Naive” refers to the employment of standard self-attention mechanisms. “Value” denotes integrating pooled relative position features into the value, akin to the methodology described in RET [39]. “Row” signifies adding the query with row-wise pooled relative position features. “RowCol” stands for our proposed RowColRPA.

на 28%/82%/88%и 10%/20%/19%в TOP-1/5/10 под границей ошибок 𝜖 <5𝑚. Этот результат указывает на то, что наша мультимодальная модель более эффективна по сравнению с 2D/3D мономодальными моделями.

Крупный поиск текстовых клеток.В соответствии с текущими работами, мы оцениваем грубую производительность извлечения текстовых клеток на валидации и тесте Kitti360. В таблице 2 представлены отзыв TOP-1/3/5 для каждого метода. Наш IFRP-T2P достигает отзыва 0,24/0,46/0,57, в наборе проверки. В сценарии, где необработанное облако точки применяется в качестве ввода, наша модель превосходит Text2loc с предыдущей моделью сегментации экземпляров на 26%/24%/23%при уровне отзыва TOP-1/3/5. Сравнивая с Text2Loc, наша модель показывает сопоставимую производительность-начисление всего лишь 17%/10%/8%при показателях отзыва TOP-1/3/5 в наборе валидации. Эта тенденция также наблюдается в тестовом наборе, что указывает на то, что предлагаемый нами экстрактор запроса экземпляра может эффективно генерировать запросы экземпляров с помощью семантической информации, а модуль Rowcolrpa может отразить важную информацию относительного положения потенциальных экземпляров. Более качественные результаты приведены в разделе 5.2.

Оценка прекрасной позиции.Чтобы оценить производительность модели тонкой стадии, мы используем парные ячейки и описания текста в качестве входных и вычисляющих нормализованное евклидовое расстояние между положением Groundtruth и прогнозируемой позицией. Мы нормализуем длину боковой ячейки до 1. Таблица 3 показывает, что при сценарии без экземпляров наша модель оценки тонкой положения дает 0,118 нормализованную эвклидовую ошибку расстояния, которая на 2% и 9% ниже по сравнению с Text2loc2PO в наборе валидации. Эта тенденция также наблюдается в тестовом наборе. Этот результат указывает на то, что наш модуль RPCA эффективно включает в себя информацию о пространственном соотношении в процессе слияния текста и облака точек и, таким образом, улучшает производительность оценки тонкой позиции.

Авторы:

(1) Lichao Wang, FNII, Cuhksz (wanglichao1999@outlook.com);

(2) Zhihao Yuan, FNII и SSE, Cuhksz (zhihaoyuan@link.cuhk.edu.cn);

(3) Jinke Ren, FNII и SSE, Cuhksz (jinkeren@cuhk.edu.cn);

(4) Shuguang Cui, SSE и FNII, Cuhksz (shuguangcui@cuhk.edu.cn);

(5) Чжэнь Ли, автор -соответствующий автор из SSE и FNII, Cuhksz (lizhen@cuhk.edu.cn).


Эта статья естьДоступно на Arxivв соответствии с CC BY-NC-ND 4.0 DEED (Атрибуция-Нонкоммерка-Noderivs 4.0 International).


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE