Качественный и количественный анализ относительных трансформаторов, усиленных положением

Качественный и количественный анализ относительных трансформаторов, усиленных положением

17 июля 2025 г.

Аннотация и 1. Введение

  1. Связанная работа

  2. Метод

    3.1 Обзор нашего метода

    3.2 грубое извлечение текстовых клеток

    3.3 Оценка прекрасной позиции

    3.4 Цели обучения

  3. Эксперименты

    4.1 Описание набора данных и 4.2 Подробная информация

    4.3 Критерии оценки и 4.4 результаты

  4. Анализ производительности

    5.1 Исследование абляции

    5.2 Качественный анализ

    5.3 Анализ встраивания текста

  5. Заключение и ссылки

Дополнительный материал

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

Анонимные авторы

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

5 Анализ производительности

5.1 Исследование абляции

Следующие исследования абляции оценивают эффективность относительных компонентов с учетом позиции на двух этапах.

RowcolrpaПолем Чтобы оценить эффективность Rowcolrpa на грубой стадии, мы сравниваем ее с различными вариантами, как показано в

Table 5: Ablation study of the relative position-aware cross-attention (RPCA) in fine stage. “Naive” indicates the application of standard cross-attention in the multi-modal fusion module.

Таблица 4. Результат показывает, что включение атрибута относительного положения в компонент значения дает скромное усиление 15%/10%/8%в показателях воспоминаний TOP-1/3/5, соответственно, по сравнению с обычным механизмом самосознания. Включение функции объединенного относительного положения в запрос приводит к почти такому же уровню улучшения, причем незначительное увеличение наблюдается при уровне отзыва Топ-5. В отличие от этого, новая стратегия интеграции в строке объединенной особенности относительной позиции с запросом и введения в ключ в колонну объединенной относительной позиции приводит к значительному повышению производительности на 26%/21%/18%по сравнению с стандартным самоуничтожением в TOP-1/3/5. Это демонстрирует выраженное превосходство и эффективность предлагаемой Rowcolrpa в захвате пространственных отношений и повышении производительности поиска.

RPCAПолем Чтобы проанализировать эффективность RPCA на тонкой стадии, мы сравниваем ее с вариантом с использованием стандартного перекрестного атя, как показано в таблице 5. Результат показывает, что наша RPCA приводит к улучшению на 15%/10%/8%по сравнению со стандартным самоуничтожением в показателях локализации TOP-1/5/10, соответственно. Он демонстрирует способность RPCA эффективно интегрировать относительную информацию о положении во время мультимодального процесса слияния, тем самым повышая точность локализации.

5.2 Качественный анализ

В дополнение к количественным показателям, мы также предлагаем качественный анализ, сравнивая полученные ячейки TOP-1/2/3 с помощью Text2LOC [42] и IFRP-T2P, как показано на рис. 6. В первом столбце результат указывает, что обе модели могут извлекать клетки с описанными экземплярами. Тем не менее, существуют заметные различия в их точности в отношении предоставленных описаний пространственных отношений. В частности, для экземпляра «Бежевой парковки», который описывается как расположенный к западу от ячейки, результат извлечения текста2лока некорена ставит его в астюрсет в клеточных центрах. И наоборот, IFRP-T2P правильно определяет этот экземпляр к востоку от центра, согласуясь с данным описанием. Во втором столбце текст намекает на то, что поза находится на вершине «темно-зеленой растительности» и находится к северу от «темно-зеленой парковки». Для Text2loc парковка обнаружена к северу от клеточного центра в полученных клетках TOP-1/2, а растительность расположена на пределе поля в полученных клетках TOP-1/2/3, несоответствующие из описания текста. Однако для IFRP-T2P парковка появляется на юге клеточного центра в полученных клетках TOP-1/2, и растительность появляется в центре полученных клеток TOP-1/2/3, которые соответствуют тексту

Figure 6: Comparison of the top-3 retrieved cells between Text2Loc [42] and IFRP-T2P. The numbers within the top-3 retrieval submaps denote the center distances between the retrieved submaps and the ground-truth, with “n/a” indicating distances exceeding 1000 meters. Green boxes highlight the positive submaps, which contain the target location, whereas red boxes delineate the negative submaps that do not contain the target.

описание. Примечательно, что в обоих случаях только третья извлеченная ячейка по IFRP-T2P превышает порог ошибки. Это доказательство укрепляет превосходную способность IFRP-T2P интерпретировать и использовать относительную информацию о положении по сравнению с Text2loc. Больше тематических исследований нашего IFRP-T2P представлены в материале для добавки.

Авторы:

(1) Lichao Wang, FNII, Cuhksz (wanglichao1999@outlook.com);

(2) Zhihao Yuan, FNII и SSE, Cuhksz (zhihaoyuan@link.cuhk.edu.cn);

(3) Jinke Ren, FNII и SSE, Cuhksz (jinkeren@cuhk.edu.cn);

(4) Shuguang Cui, SSE и FNII, Cuhksz (shuguangcui@cuhk.edu.cn);

(5) Чжэнь Ли, автор -соответствующий автор из SSE и FNII, Cuhksz (lizhen@cuhk.edu.cn).


Эта статья естьДоступно на Arxivв соответствии с CC BY-NC-ND 4.0 DEED (Атрибуция-Нонкоммерка-Noderivs 4.0 International).


Оригинал
PREVIOUS ARTICLE