Обзор акустических датчиков в беспилотных автомобилях

Обзор акустических датчиков в беспилотных автомобилях

20 марта 2023 г.

Введение

В последние годы индустрия беспилотных автомобилей пережила значительный рост, в первую очередь ориентированный на датчики, такие как камеры, радары и лидары. Однако потенциальному использованию микрофонов и аудио в автономном вождении (AV) уделялось ограниченное внимание, за исключением распознавания автомобилей скорой помощи. В этой статье мы рассмотрим возможные преимущества и области применения микрофонов и аудиотехнологий в системах автономного вождения.

Датчики Теслы в основном полагаются на камеры, в отличие от других типов датчиков [6, 7]. Это решение основано на предположении, что визуальные данные могут предоставить модели машинного обучения достаточно информации для достижения необходимого уровня точности. Хотя люди полагаются на зрительный ввод, мы также обладаем способностью слышать и интерпретировать звуки, исходящие от близлежащих объектов. Например, идя по оживленной улице, мы можем определить местонахождение проезжающей машины и отличить ее по звуку. Мы даже можем делать обоснованные предположения о его физических свойствах, основываясь на звуках его взаимодействия с окружающей средой.

Природа звука

Звук – это процесс, при котором звуковые волны распространяются через газ или жидкость и улавливаются ухом. Как правило, люди могут воспринимать звуковые волны с частотами в диапазоне от 16–20 Гц до 15–20 кГц, что соответствует длинам волн примерно от 17 м до 1,7 см соответственно.

Использование двух ушей, известное как бинауральный слух, позволяет людям определять направление источников звука. Если смотреть на источник, звуковые волны достигают обоих ушей с одинаковой фазой. Однако когда источник движется или голова поворачивается, звуковые волны достигают каждого уха с немного разным фазовым сдвигом, что позволяет мозгу триангулировать местоположение источника.

Эта способность локализации лучше всего работает для низкочастотных волн, длина волны которых больше, чем расстояние между ушами. Кроме того, изменения интенсивности звуковой волны могут сигнализировать о том, приближается или удаляется объект, производящий звук, поскольку интенсивность уменьшается пропорционально квадрату расстояния от источника.

Использование звука в локализации объектов

На протяжении всей истории людям приходилось находить объекты, и до появления современных алгоритмов и оборудования для обработки сигналов они часто полагались для этого на звук. На самом деле, звуковая локализация оказалась достаточно успешной для многих задач, в том числе для обнаружения самолетов противника [31] до изобретения радара, а также для опознавания кораблей в условиях тумана [25].

Для этого люди использовали бинауральный эффект, который позволяет нам определять направление источника звука, сравнивая различия в интенсивности и времени прибытия звуковых волн в каждое ухо. Эта способность была дополнительно улучшена для слабых звуков с помощью рожков или других устройств усиления (рис. 1).

n Figure 1. Giant listening horns like this were used to listen for approaching aircraft during the Great War once aircraft were used for more than просто разведать и стать оружием (источник)<

Под Лондоном сохранились специальные установки, напоминающие большие бетонные зеркала, которые использовались для обнаружения налетов вражеской авиации[1]. Эти конструкции, известные как «звуковые зеркала», были спроектированы с использованием большой бетонной параболической тарелки, которая собирала звуковые волны, исходящие из Ла-Манша, и фокусировала их на микрофоне, усиливая звук. Это позволяло операторам обнаруживать приближающиеся налеты самолетов за 20-30 минут до их прибытия. Принцип работы основан на том, что звуковые волны могут отражаться и концентрироваться изогнутой поверхностью, подобно тому, как параболическое зеркало фокусирует свет. Собирая и усиливая звуковые волны таким образом, звуковые зеркала смогли обнаружить характерный звук приближающихся авиационных двигателей с больших расстояний, заблаговременно предупредив военные власти. Сегодня эти звуковые зеркала служат свидетельством изобретательности и находчивости инженеров и ученых в военное время.

n Рисунок 2. Акустические зеркала Denge (источник)

Поскольку в момент выстрела генерируется ударная звуковая волна, звуковая локализация активно используется для обнаружения артиллерийских установок или снайперов. Синхронизированные микрофоны используются для измерения времени, необходимого звуковой волне для достижения каждого микрофона, что позволяет рассчитать местоположение источника на основе известной скорости распространения звука (рис. 4). В локаторах стрельбы и других небольших системах (рис. 3) эта технология используется до сих пор [12].

n Рисунок 3. Источник локатора выстрелов

Figure 4. Artillery sound localization source

Удивительно, как эта технология может принести пользу человечеству различными способами, например, в умных колонках и автономных транспортных средствах. Давайте более подробно рассмотрим его реализацию и поймем, как он может расширить возможности этих устройств.

Применение в автономном вождении

Давайте рассмотрим различные случаи использования акустических датчиков и потенциальные преимущества использования акустических данных.

Объекты, излучающие звуковые сигналы, например автомобили скорой помощи и другие транспортные средства, использующие сирены, можно легко обнаружить с помощью звуковой локализации. Использование звуковой локализации может привести к более точному определению местонахождения таких транспортных средств. Кроме того, мы можем лучше различать разные типы объектов, например грузовики или легковые автомобили. В [4] представлены модели для классификации звука двигателей легковых автомобилей.

Включение звука в слияние датчиков может значительно повысить точность классификации объектов, особенно в условиях плохой видимости, например в тумане, или когда другие датчики загрязнены. Звуковые данные обеспечивают независимый и некоррелированный источник данных, что полезно для слияния датчиков, поскольку независимый источник данных удовлетворяет предположениям о нормальности и независимости. Кроме того, звуковые датчики могут предоставлять уникальные функции для обнаружения явлений, которые другие датчики не могут уловить, например металлический лязг, указывающий на поломку или обнаружение неисправности [25, 38].

Кроме того, микрофоны являются более экономичным и энергоэффективным вариантом по сравнению с камерами или лидарами, что делает их популярным выбором для определенных приложений. Кроме того, их часто считают более безопасными для конфиденциальности, поскольку они не захватывают визуальные изображения и требуют меньшей пропускной способности сети для передачи собираемых данных [32].

Звуковые волны могут проникать через препятствия, что позволяет нам получать измерения от объектов, которые не видны напрямую. Это возможно из-за более длинных волн акустических волн в воздухе и размеров типичных препятствий в дорожных сценариях. В некоторых дорожных ситуациях звук окружающей среды может быть наиболее эффективным средством ситуационной осведомленности. Например, представьте беспилотное устройство рядом с препятствием, которое затеняет его датчики (такие как камеры, лидары и радары), или стоит позади автомобиля и не может видеть, что находится впереди. В этих сценариях более мелкие роботы, такие как роботы-доставщики, могут быть дополнительно ограничены проблемами вне прямой видимости (NLOS), делая камеры, лидары и, возможно, радары бесполезными. Однако, если движущийся объект издает характерный звуковой паттерн, например звук мотоцикла, мы можем отследить его, используя локализацию источников звука скрытых от прямого взгляда источников звука (рис. 5), как проанализировано в [22].

n Рисунок 5. Демонстрационный источник вне прямой видимости< /p>

Оборудование

Микрофоны можно использовать в качестве оборудования на крыше дрона для создания массива микрофонов (рис. 6), который может состоять из более чем двух микрофонов [11]. Подобные системы используются в интеллектуальных колонках и даже в игровых консолях, таких как Kinect, которые также можно использовать в аудиовизуальных приложениях [41]. В массовом производстве микрофонная решетка не должна быть очень дорогой, а ее конструкция может быть выполнена так, что она не требует очистки, в отличие от камер и лидаров.

В дополнение к автономным массивам микрофонов существуют также акустические камеры [18], которые объединяют камеру и массив микрофонов. Они могут выводить тепловую карту звука, показывающую, где находится источник звука на изображении (рис. 7). Это полезно, когда нам нужно идентифицировать источник шума, например, лязг из-за дефекта промышленного оборудования. Акустическая камера своими руками (рис. 7) может быть изготовлена ​​в соответствии с рекомендациями, приведенными в полезной статье [17], а для формирования луча можно использовать библиотеку окуляров [13].

n Рисунок 6. Массив микрофонов

n Рисунок 7. Тепловая карта звука на изображении

n Рисунок 8. Акустическая камера своими руками

Однако шум ветра и собственный шум автомобиля могут отрицательно сказаться на точности локализации звука. Это представляет собой проблему, поскольку микрофон должен быть защищен от ветра, чтобы избежать шумовых помех. Для этого можно использовать специальные насадки из поролона или меха (рис. 9) [5], которые эффективно защищают от ветра со скоростью до 1 м/с (примерно 2 мили в час). Хотя естественный ветер не представляет серьезной проблемы, высокая скорость, которую может развивать транспортное средство, до 250 км/ч, может создавать ограничения. Чтобы смягчить эту проблему, необходима аэродинамическая внешняя оболочка для датчика, а также, возможно, потребуется скрыть ее за аэродинамическим элементом [28].

n Рисунок 9. Ветрозащита

Есть еще один тип микрофонов, используемых при аэродинамических исследованиях автомобилей, — поверхностные микрофоны [8,9]. Этот микрофон идеально подходит для установки непосредственно на поверхность транспортного средства (рис. 10) во время испытаний в аэродинамической трубе или для измерений в ограниченном пространстве, например, на брандмауэре или на днище транспортного средства. Они используются для анализа звуков, издаваемых кузовом автомобиля. На базе таких микрофонов можно создать более дешевые аналоги, которые будут больше похожи на парктроники, чем на мохнатые насадки.

n Рисунок 10. Накладной микрофон на транспортном средстве

Может потребоваться использование безэховой камеры (рис. 11) для калибровки таких датчиков. Этот тип камеры устраняет отражения от стен за счет использования на стенах специальных звукопоглощающих материалов. Безэховые камеры гораздо проще сконструировать для звука, чем, скажем, для радио.

n Рисунок 11. Звуковая безэховая камера

Чтобы определить оптимальное количество и размещение микрофонов на транспортном средстве, можно сформулировать задачу оптимизации. В [33] достигается компромисс между низкочастотным угловым разрешением (требующим больших расстояний между микрофонами) и высокочастотным угловым разрешением (требующим меньших расстояний). Используя преобразование Радона и указав изменение частоты, которое мы хотим различать, а также допустимое разрешение направления прихода (DOA), можно оптимизировать количество и положение микрофонов. В результате по контуру транспортного средства можно использовать несколько микрофонных сборок (состоящих из близко расположенных микрофонов). В этом случае рекомендуется четыре сборки.

Алгоритмы

После оцифровки аудиосигнала его можно представить в виде последовательности чисел с интервалами между ними, взятыми с определенной частотой, известной как частота дискретизации. Согласно теореме Найквиста, для точного представления сигнала частота дискретизации должна быть как минимум в два раза больше частоты самого высокочастотного компонента. Например, при оцифровке музыки обычно используется частота дискретизации 44,1 кГц.

Чтобы подготовить данные для моделирования, часто необходимо извлечь признаки. Один из способов сделать это для аудиоданных — использовать преобразование Фурье для преобразования сигнала во временной области в представление в частотной области или спектр. Это можно представить в виде спектрограммы (рис. 12), которая показывает распределение частотного содержания во времени. Спектрограммы могут дать представление о временных и спектральных характеристиках звукового сигнала и обычно используются в приложениях для анализа звука и машинного обучения. Как выглядит спектрограмма?

n Рисунок 12. Звук в виде временного ряда (вверху) и в виде спектрограммы (внизу)

Но поскольку мы знаем, что интенсивность звука является логарифмической, нам нужно преобразовать ее обратно в линейную шкалу. Именно здесь вступают в действие частотные кепстральные коэффициенты Мела (MFCC). MFCC представляют собой набор функций, первоначально использовавшихся в обработке речи, а теперь широко используемых в различных приложениях, включая поиск музыкальной информации (MIR) [23]. Они позволяют преобразовать аудиосигнал в более компактное и информативное представление, которое можно использовать для моделирования.

Разделение звука — распространенная проблема, возникающая, когда микрофон улавливает звук из нескольких источников одновременно. Это известно как проблема коктейльной вечеринки, когда мы стремимся отделить звук от каждого источника. Аналогичная проблема возникает при разделении инструментов и вокала в записанном музыкальном треке. Для решения этой проблемы в [19] предлагается модификация классического алгоритма Non-Negative Matrix Factorization (NMF). Затем выходные функции передаются в модель машинного обучения. В качестве альтернативы для этой цели можно обучить модель глубокого обучения [21]. Другие алгоритмы, в том числе NMF, представлены в [43]. /https://dev-to-uploads.s3.amazonaws.com/uploads/articles/yd36xwzmon3nq054syzt.png"> n Рисунок 13. Разделение звука в music.source

Помощь в самостоятельной локализации. Также есть возможность использовать это как локализацию.

Теперь поговорим об обнаружении объектов — здесь можно использовать подходы на основе моделей, а также новые подходы машинного обучения. Первый не требует данных, а второй в некоторых случаях дает лучшие результаты.

Обнаружение и отслеживание объектов на основе модели. Для этой задачи существует несколько методов: разница во времени прибытия, формирование луча и голографический.

Разница во времени прибытия (TDOA) Самый простой способ — классическая разница во времени прибытия.

n Рисунок 14. Иллюстрация разницы во времени

У нас есть массив микрофонов, разнесенных на расстояние s, и каждый микрофон улавливает звук из источника. Поскольку волновой фронт достигает каждого микрофона с различной задержкой, мы можем вычислить взаимную корреляцию сигналов для каждой пары микрофонов, чтобы определить время задержки звука $tau_{i,j}$ (где i и j обозначают пару микрофонов) . Это время прямо пропорционально расстоянию d от микрофона до фронта волны. Используя d и s, мы можем вычислить направление прихода $тета$. Теперь у нас есть уникальная оценка направления прихода для каждой пары микрофонов. Мы можем сгруппировать эти оценки и вывести центры кластеров в качестве нашего окончательного ответа. %2Cw_880/https://dev-to-uploads.s3.amazonaws.com/uploads/articles/eoxge0o1y5vgpb20btn8.png"> n Направление прибытия от задержки и базового расстояния

К сожалению, нам не хватает каких-либо знаний о моменте звукового излучения или его начальной интенсивности, что не позволяет нам напрямую измерить расстояние. Однако для объектов, о природе сигнала которых мы заранее знаем, такое измерение возможно. Мы также можем использовать триангуляцию, используя оценки нескольких направлений прихода от независимых микрофонных решеток, но было показано, что этот метод имеет значительные ошибки [45]. В качестве альтернативы мы можем использовать трассировщик лучей и строить гипотезы относительно местоположения объекта, учитывая полученную волну, прямую видимость и отраженную волну. В [22] проводятся исследования по определению положения источника звука, даже если он не виден, по нескольким отраженным сигналам.

После оценки направления прибытия (DOA) можно применять различные методы фильтрации для повышения точности оценки. Например, можно использовать фильтр частиц [29]. В качестве альтернативы можно работать в частотной области вместо временной. В [37] используется разница во времени прибытия (TDOA), и показано, что путем включения в модель карты высокого разрешения (HD) и построения соответствующих гипотез можно улучшить обнаружение и отслеживание, особенно для обгоны и близкие обгоны рядом с эго-автомобилем.

Формирование луча

Формирование луча [46] — это мощная техника, используемая для фокусировки на конкретном источнике звука в пространстве. Направляя фокус в направлении фактического источника звука, функция энергии создает пик. Подход основан на предположении, что в направлении источника звука излучается больше энергии, чем в других направлениях. В круглых массивах микрофонов поиск должен выполняться по всему полю зрения (FoV), что может сделать процесс более сложным и трудоемким. Этот метод похож на пассивный радар, где радар только принимает сигналы, не излучая их. Используя несколько приемников, можно использовать принцип фазированной антенной решетки для формирования луча. Библиотека acoular [13] — мощный инструмент, который можно использовать для формирования луча. Кроме того, пространственные функции также могут быть включены в pytorch [14] для дальнейшего повышения производительности формирования луча.

n Рисунок 15. Метод формирования диаграммы направленности с суммой задержек.

Рисунок 15 демонстрирует простейшую форму формирования луча с задержкой и суммированием, в которой используется набор микрофонов и сигналы, которые они улавливают. Поскольку микрофоны находятся на немного разных расстояниях от источника звука, мы можем оценить положение источника, определив задержки между сигналами от каждого микрофона. Задержки пропорциональны расстояниям, пройденным звуковой волной до каждого микрофона. Цель состоит в том, чтобы найти такие задержки для каждого микрофона, чтобы сумма задержанных сигналов имела самый высокий энергетический пик, указывающий направление источника звука (случай а). Напротив, если мы используем задержки из (случай а) для оценки направления другого источника звука (случай б), пик не будет в том же положении, и нам нужно будет снова оценить задержки для нового источника.

Обнаружение объектов машинного обучения

Исходя из предыдущего описания, становится очевидным, что мы можем точно оценить направление прибытия. Однако точно определить расстояние до объекта непросто, так как для этого требуется выполнить обратную трассировку лучей. Тем не менее, мы можем перейти от подхода, основанного на моделях, к подходу, основанному на данных.

Во-первых, мы можем упростить задачу. Мы можем переключить внимание с обнаружения объектов на классификацию сцен. Классификация сцен является важной задачей не только в области автономных транспортных средств, но и в робототехнике, где роботы работают в различных средах. В недавнем исследовании [36] исследователи объединили функции изображения CNN с функциями MLP, которые обрабатывают звуковые представления MFCC для классификации сцен. Результаты показали значительное улучшение точности классификации до 79,93% по сравнению с использованием только информации об изображении, которая достигла 65,92%. Этот подход демонстрирует потенциал включения звуковой информации в задачи классификации сцен.

Дальнейшее развитие и применение различных алгоритмов машинного обучения представлено в [24]. Здесь можно попробовать использовать только аудиоданные, но возникает вопрос, что делать, если разметки нет. В [26] также выбрана более простая задача - классификация (нет объекта, объект справа, объект слева).

В [32] предложен подход с самоконтролем для обнаружения и отслеживания объектов. Самостоятельное обучение — это тип машинного обучения, при котором модель учится на самих данных без пометок или контроля со стороны человека. Он включает в себя обучение модели прогнозированию определенных свойств или преобразований данных с использованием внутренней структуры данных для создания собственного контрольного сигнала. Их модель состоит из визуальной сети «учитель» и стереофонической сети «ученик» (рис. 16). Во время обучения знания из хорошо зарекомендовавшей себя модели визуального обнаружения транспортных средств передаются в звуковую область с использованием немаркированных видео в качестве моста. Во время тестирования студенческая сеть со стереозвуком может выполнять локализацию объекта независимо, используя только стереозвук и метаданные камеры, без какого-либо визуального ввода. Показано, что их слуховое отслеживание объектов надежно в условиях плохого освещения, где традиционное отслеживание объектов на основе зрения часто не работает. Однако авторы также наблюдали некоторые случаи отказов с быстро движущимися транспортными средствами и шумными звуками, такими как строительный шум, ветер и осадки. В исследовании представлены интересные случаи, когда их StereoSoundNet успешно отслеживает движущиеся автомобили, несмотря на окклюзию, контровое освещение, отражение и плохие условия освещения, в то время как визуальная локализация объекта не удается. В [35] представлено дальнейшее развитие самоконтролируемого подхода к обучению с использованием более двух микрофонов. Их основной прогресс заключается в использовании контрастного обучения для этой задачи и предоставлении общедоступного набора данных.

n Рисунок 16. Процесс обучения для модели, описанной в [32], включает использование метода, называемого дистилляцией знаний, для обучения меньшего и более быстрого " сеть ученика, чтобы имитировать производительность более крупной и точной сети учителя. После завершения процесса обучения студенческая сеть может работать независимо, не требуя наличия учительской сети». src="https://res.cloudinary.com/practicaldev/image/fetch/s--MjFpxviW--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to-uploads.s3.amazonaws. com/uploads/articles/0btp44w9qectkf0sr1ip.png"/></a></p><p>Интересно отметить, что в [39] были получены хорошие результаты для отслеживания вне прямой видимости с помощью радара. Подход включает в себя обнаружение плоских поверхностей, от которых могут отражаться сигналы, и обнаружение на основе гипотезы трехкратного отражения (автомобиль → стена → объект → стена → автомобиль). В акустической области [40] провел анализ в безэховой камере.</p><h2>Наборы данных</h2><p>В последнее время большую популярность приобрело использование мультимодальных наборов данных, объединяющих различные типы данных, таких как текст, изображение или видео. Эта тенденция также распространилась на область автономного вождения, где доступно множество наборов данных, включающих данные с камер, лидаров и радаров. Однако, к сожалению, аудиоданные часто упускаются из виду и не включаются во многие из этих наборов данных. Несмотря на потенциальные преимущества аудиоданных, такие как их способность предоставлять ценную информацию об окружающей среде и поведении других участников дорожного движения, они по-прежнему мало используются в контексте автономного вождения.</p><p>В последние годы появилось несколько мультимодальных наборов данных для автономного вождения, включающих данные с камер, лидаров и радаров. Однако аудиоданные по-прежнему являются редкостью. Примечательно, что набор данных OLIMP [15, 16] содержит множество модальностей, включая камеру, сверхширокополосный радар, узкополосный радар и акустические датчики, и был собран со стационарного вездехода. Этот набор данных содержит 407 сцен и 47 354 синхронизированных кадра с четырьмя категориями: пешеход, велосипедист, автомобиль и трамвай. Другой набор данных [26] был записан в пяти Т-образных перекрестках с глухими углами по всему городу, в то время как третий набор данных [34] включает более 70 минут синхронизированных по времени аудио- и видеозаписей транспортных средств на дорогах с более чем 300 аннотациями ограничительной рамки. . Кроме того, инструмент [42] обеспечивает моделирование источника и приемника звука.</p><h2>Заключение</h2><p>Скорее всего, мы не видим таких датчиков на автомобилях по следующим причинам. Автономные компании анализируют журналы поездок и видят, где произошло отключение или что-то еще. Вероятно, количество таких случаев, когда мог бы помочь аудиодатчик, не так уж и велико по сравнению с другими проблемами. Следующая проблема заключается в том, что для реализации в конвейере потребуется сложная обработка сигналов. Но из статьи мы узнали, что сами сенсоры недороги и, кроме того, могут повысить производительность слияния сенсоров и позволить решать задачи, которые не могут другие — обнаруживать неосвещенные объекты площадки. Так что скорее всего мы увидим их на роботах в ближайшем будущем.</p><h2>Ссылки:</h2><p></p>
                    

                    <hr>
                    <a href="https://hackernoon.com/survey-on-acoustic-sensors-in-self-driving-cars" target="_blank" rel="nofollow">Оригинал</a>

                    <!-- Yandex.RTB R-A-1755394-6 -->
                    <div class="row">
                        <div id="yandex_rtb_R-A-1755394-6" class="col-12"></div>
                    </div>
                    <script>window.yaContextCb.push(() => {
                        Ya.Context.AdvManager.render({
                            "blockId": "R-A-1755394-6",
                            "renderTo": "yandex_rtb_R-A-1755394-6",
                            "type": "feed"
                        })
                    })
                    </script>
                </div>
                <div class="col-lg-3 sidebar">
                    
                        <div class="recent-post">
                            <h3 class="widget-title">Recent Post</h3>
                            <hr>
                            <!-- Yandex Native Ads C-A-1755394-2 -->
                            <div id="id-C-A-1755394-2"></div>
                            <script>window.yaContextCb.push(() => {
                                Ya.Context.AdvManager.renderWidget({
                                    renderTo:

PREVIOUS ARTICLE
NEXT ARTICLE