В разреженных облаках и неоднозначных текстах эта модель ИИ все еще находит свой путь

В разреженных облаках и неоднозначных текстах эта модель ИИ все еще находит свой путь

17 июля 2025 г.

Аннотация и 1. Введение

  1. Связанная работа

  2. Метод

    3.1 Обзор нашего метода

    3.2 грубое извлечение текстовых клеток

    3.3 Оценка прекрасной позиции

    3.4 Цели обучения

  3. Эксперименты

    4.1 Описание набора данных и 4.2 Подробная информация

    4.3 Критерии оценки и 4.4 результаты

  4. Анализ производительности

    5.1 Исследование абляции

    5.2 Качественный анализ

    5.3 Анализ встраивания текста

  5. Заключение и ссылки

Дополнительный материал

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

Анонимные авторы

  1. Подробная информация о наборе данных Kitti360
  2. Больше экспериментов по экстрактору запроса экземпляра
  3. Анализ космического пространства текстовых клеток
  4. Больше результатов визуализации
  5. Анализ устойчивости точек

7 Подробная информация о наборе данных Kitti360

Figure 7: Visualization of the KITTI360Pose dataset. The trajectories of five training sets, three test sets, and one validation set are shown in the dashed borders. One colored point cloud scene and three cells are shown in the middle.

Еще 8 экспериментов на экстракторе запроса экземпляра

Table 7: Ablation study of the query number on KITTI360Pose dataset.

Мы проводим дополнительный эксперимент, чтобы оценить влияние количества запросов на производительность нашего экстрактора запроса экземпляра. Как подробно описано в Таблице 7, мы оцениваем частоту отзыва локализации с использованием 16, 24 и 32 запросов. Результат демонстрирует, что использование 24 запросов дает наивысшую частоту отзыва локализации, то есть 0,23/0,53/0,64 на наборе валидации и 0,22/0,47/0,58 в тестовом наборе. Этот вывод свидетельствует о том, что оптимальное количество запросов для максимизации эффективности нашей модели составляет 24.

9 Анализ встроенного пространства текстовых клеток

На рис. 8 показано выровненное пространство встраивания текстовых клеток через T-SNE [37]. В сценарии без экземпляра мы сравниваем нашу модель с Text2Loc [42], используя предварительно обученную модель сегментации экземпляра, Mask3d [35], в качестве предыдущего шага. Можно наблюдать, что Text2loc приводит к менее дискриминационному пространству, где положительные клетки относительно далеки от функции текстового запроса. Напротив, наш IFRP-T2P эффективно снижает расстояние между положительными элементами клеток и функциями текстовых запросов в пространстве встраивания, тем самым создавая более информативное пространство встраивания. Это улучшение в пространстве встраивания имеет решающее значение для повышения точности поиска текстовых клеток.

Figure 8: T-SNE visualization for the text features and cell features in the coarse stage.

10 результатов визуализации

На рис. 9 показано больше результатов визуализации, включая как результаты поиска, так и результаты оценки тонкого положения. Результаты показывают, что грубый поиск текстовых клеток служит основополагающим шагом в общем процессе локализации. Последующая оценка тонкой позиции обычно улучшает производительность локализации. Тем не менее, есть случаи, когда точность этой прекрасной оценки подвергается нарушению, особенно когда входные описания расплывчаты. Этот вредный эффект на точность иллюстрируется в 4-я ряд и 6-й строке, если рис. 9.

Figure 9: Localization results on the KITTI360Pose dataset. In the coarse stage, the numbers in the top 3 retrieval submaps represent the center distances between retrieved submaps and the ground truth. For fine localization, pink and blue points represent the ground-truth localization and the predicted location, with the number indicating the distance between them.

Анализ устойчивости к облаку 11 очков

Предыдущие работы [21, 39, 42] были сосредоточены исключительно на изучении влияния текстовых модификаций на точность локализации, игнорируя влияние модификации облака точек. В этом исследовании мы также рассмотрим влияние деградации облака точек, что имеет решающее значение для полного анализа нашей модели IFRP-T2P. В отличие от накопленных точечных облаков, представленных в наборе данных Kitti360, датчики LIDAR обычно отражают только редкие облака точек в реальных настройках. Чтобы оценить надежность нашей модели в условиях редкости в облаке точечных, мы проводим эксперименты, случайно маскируя одну треть точек и сравниваем эти результаты с результатами с результатами, полученными с использованием необработанных облаков точек. Как показано на рис. 10, при приеме облако точек маскированных точек в качестве входного ввода наша модель IFRP-T2P достигает отзывов локализации 0,20 в TOP-1 с границей ошибки 𝜖 <5𝑚 в наборе валидации. По сравнению с Text2loc, который показывает деградацию 22,2%, наша модель демонстрирует более низкий уровень деградации в 15%. Этот результат указывает на то, что наша модель более устойчива к вариации облака точек.

Figure 10: Point cloud robustness analysis.

Авторы:

(1) Lichao Wang, FNII, Cuhksz (wanglichao1999@outlook.com);

(2) Zhihao Yuan, FNII и SSE, Cuhksz (zhihaoyuan@link.cuhk.edu.cn);

(3) Jinke Ren, FNII и SSE, Cuhksz (jinkeren@cuhk.edu.cn);

(4) Shuguang Cui, SSE и FNII, Cuhksz (shuguangcui@cuhk.edu.cn);

(5) Чжэнь Ли, автор -соответствующий автор из SSE и FNII, Cuhksz (lizhen@cuhk.edu.cn).


Эта статья естьДоступно на Arxivв соответствии с CC BY-NC-ND 4.0 DEED (Атрибуция-Нонкоммерка-Noderivs 4.0 International).


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE