Бесцена с более быстрым R-CNN и YOLOV5 для глобального обнаружения повреждений дорог в разных странах

Бесцена с более быстрым R-CNN и YOLOV5 для глобального обнаружения повреждений дорог в разных странах

13 августа 2025 г.

Авторы:

(1) Рахул Вишвакарма, Лаборатория Analytics & Solutions и Solutions, Hitachi America Ltd., Санта -Клара, Калифорния, США (Rahul.vishwakarma@hal.hitachi.com);

(2) Равигопал Веннелаканти, Лаборатория Analytics & Solutions, Hitachi America Ltd., Research & Development, Санта -Клара, Калифорния, США (Ravigopal.vennelakanti@hal.hitachi.com).

Аннотация и I. Введение

II Набор данных

Iii. Методы

IV Эксперименты

V. Результаты

VI Выводы и ссылки

**Абстрактный- ** В этом документе содержится отчет о нашем решении, включая выбор модели, стратегию настройки и результаты, полученные для глобального выявления обнаружения дорожных повреждений. Эта задача Cup Cup Big Data была проведена в рамках Международной конференции IEEE по большим данным 2020 года. Мы оцениваем одноэтажные и многоэтапные сетевые архитектуры для обнаружения объектов и предоставляем эталон с использованием популярных самых современных пит-средств с открытым исходным кодом, таких как Detectron2 и Yolov5. Обсуждается подготовка данных для предоставленного набора данных обучения на уроне дорожного повреждения, снятого с использованием камеры смартфона из Чехии, Индии и Японии. Мы изучили влияние обучения по каждой стране в отношении единой модели обобщаемой. Мы кратко опишем стратегию настройки для экспериментов, проведенных на двухэтапных более быстрых R-CNN с глубокой остаточной сетью (RESNET) и основной сетью Pyramid (FPN). Кроме того, мы сравниваем это с одноэтапной моделью Yolov5 с поперечной частичной сетью (CSPNET). Мы показываем среднюю оценку F1 0,542 на Test2 и 0,536 на наборах данных Test1 с использованием многоэтапной модели R-CNN с многоэтапной R-CNN с соответственно RESNET-50 и RESNET-101. Это показывает обобщение модели Resnet-50 по сравнению с ее более сложными аналогами. Эксперименты проводились с использованием Google Colab, имеющей K80 и ПК Linux с графическим процессором NVIDIA потребительского уровня. Код Detectron2 на основе Pytorch для предварительной обработки, тренировки, тестирования и отправки оценки AVG F1, доступный по адресу https://github.com/vishwakarmarhl/rdd2020

I. Введение

Дороги являются важнейшим активом инфраструктуры мобильности, который требует оценки состояния и мониторинга. Это традиционно делалось с помощью ручного обследования и дорогих методов проверки. Высокая стоимость и проблемы в существующих методах, таких как ручный труд, специализированное осмотрительное оборудование, предметные знания и материально -технические задержки в оценке, являются чрезмерными. Чтобы решить эту проблему, автоматизированная обработка изображений из готовой камеры смартфона показала, что она все более эффективна в обнаружении визуальных повреждений [1].

Методы обнаружения объектов и локализации на основе глубокого обучения показали огромный прогресс за последнее десятилетие. Свожденная нейронная сеть (CNN) с использованием подхода к подходу к обучению применяется к области распознавания изображений, которые трудно моделировать с использованием традиционных методов. ImageNet [3] Challenge ускорила задачу обнаружения объекта, и к 2015 году превысила человеческие способности. Целью данной работы является оценка методов обнаружения объектов и проведение экспериментов для обучения модели обнаружения повреждений с наиболее точной и обобщенной архитектурой. Мы достигаем следующего в этой статье.

• Предварительная обработка для достижения точных обнаружений

• Тренируйте обобщенную модель, которая может быть передана в разных странах. Сравните его с выделенной моделью на страну.

• Экспериментируйте и оцените одноэтапные и многоэтапные детекторы объектов для точного обнаружения

• Оценить прогресс, гиперпараметры и точность различных моделей

В следующем разделе описываются данные, эксперименты и анализ для достижения сообщенного оценки.

II Набор данных

Набор данных по повреждению дорог 2020 [2] был курирован и аннотирован для автоматической проверки. Этот многострановый набор данных выпускается в рамках задачи Cup Cup IEEE [23]. Задача состоит в том, чтобы обнаружить убытки дороги в глобальном масштабе и сообщить о производительности на наборах данных Test 1 и Test 2.

TABLE I. ROAD DAMAGE TYPE DEFINITIONS

Убытки варьируются в разных странах. Чтобы обобщить обнаружение категории ущерба в таблице I, классы, рассматриваемые для анализа, являются; D00: продольная трещина, D10: поперечная трещина, D20: трещина аллигатора, D40: выбоина. Данные тестирования 1 и тестирования 2 предоставляются Комитетом по вопросам [23] для оценки и представления. После представления средний балл F1 добавляется в частную таблицу лидеров, а также в общедоступную таблицу лидеров, если он превышает все предыдущие оценки в нашей частной таблице лидеров.

A. Глобальный набор данных по повреждению дорог

Последний набор данных собирается из Чешской Республики и Индии в дополнение к тому, что было доступно Ассоциацией ГИС в Японии. Набор данных 2020 года обеспечивает обучающие изображения размера 600x600 с ущербом в качестве ограничивающей коробки с соответствующим классом урона. Метки классов и координаты ограничивающей коробки, определенные четырьмя числами (Xmin, Ymin, Xmax, Ymax), хранятся в формате XML в соответствии с Pascal VOC [12].

Предоставленные данные обучения имеют 21041 общего изображения. Он состоит из 2829 изображений из чешского (CZ); 10506 из Японии (JP); и 7706 из Индии (IN) с аннотациями, хранящимися в отдельных файлах XML. На рис. 1 мы можем увидеть структуру файла, ограничивающее поле в тегах XML и соответствующий пример изображения.

Fig. 2. Train (T), Validation (V) and Test (T) data split for experiments. Bars are for 4 damage class labels D00, D10, D20, D40 provided in the dataset.

Общие данные тестирования разделены на два набора. Тест 1 состоит из 349 чешских, 969 Индии и 1313 Японских дорожных изображений без аннотированной наземной истины. Тест 2 состоит из 360 чешских, 990 Индии и 1314 Японских дорожных изображений без аннотированной наземной истины. Результаты обнаружения на этих тестовых изображениях представлены в задачу [23] для оценки оценки AVG F1.

Чтобы запустить эксперименты, мы разделили данный учебный набор данных пропорционально на 80: 15: 5 :: Train (T): Val (V): тест (T) данные. Это дает нам окончательное изображение и аннотации на рис. 2, которое будет использоваться для обучения и настройки.

Поскольку мы настраиваем модели, нам нужно создать композитные наборы данных с помощью набора данных Train+Test (T+T) и Train+Val (T+V) наборов данных. Это поможет моделировать целые данные для обучения и оценки.

Б. Стратегия оценки

Стратегия оценки включает в себя сопоставление предсказанной метки класса для основной истинной коробки и что прогнозируемое ограничительное ящик имеет более 50% пересечения над Союзом (IOU) в области. Точность и отзыв основаны на оценке пересечения над Союзом (IOU), который определяется как отношение площади перекрытия между прогнозируемыми и территориями земли, ограничивающими землю по площади их союза.

Оценка матча проводится с использованием среднего показателя оценки F1. Оценка F1, обычно используемая в поиске информации, измеряет точность с использованием статистики точности P и Emplow r. Точность - это отношение истинных положительных результатов (TP) ко всем прогнозируемым положительным результатам (TP + FP), в то время как воспоминание является соотношением истинных положительных результатов ко всем реальным положительным результатам (TP + FN). Максимизация показателя F1 обеспечивает достаточно высокую точность и отзыв.

Оценка F1 определяется:

Оценка AVG F1 служит сбалансированной метрикой для точности и отзыва. Это метрика, которую мы получаем в нашем частном таблице лидеров, при подаче результатов оценки на наборах данных Test 1 или Test 2.

Эта статья естьДоступно на ArxivПод атрибуцией-Sharealike 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE