Perch 2.0: биоакустика модели для идентификации видов

Perch 2.0: биоакустика модели для идентификации видов

17 августа 2025 г.

Пересечение искусственного интеллекта и сохранения окружающей среды быстро расширяется, предлагая беспрецедентные инструменты для решения некоторых из самых неотложных экологических проблем планеты. На переднем крае этой эволюции находится биоакустика, где ИИ трансформирует то, как ученые отслеживают и защищают исчезающие виды.

Последние достижения в этой области, особенно с такими моделями, как Google DeepMind's Perch, подчеркивают убедительный рассказ о глубоком влиянии специализированного ИИ и нюансированных реалиях развития ИИ в научных областях.

Представление окуня 2.0: прыжок в биоакустике

Сохранилистые исторические технологии исторически сталкивались с непростой задачей: понимание обширных наборов данных аудио, собранных в диких экосистемах. Эти записи, плотные вокализация от птиц, лягушек, насекомых, китов и рыбы, предлагают бесценные подсказки о присутствии животных и здоровье экосистемы. Тем не менее, анализ миллионов часов аудио вручную является монументальным начинанием.

Именно здесь Perch, модель ИИ, предназначенная для анализа биоакустических данных, шага. Важно отметить, что он может более эффективно адаптироваться к новой среде, включая сложные подводные условия, такие как коралловые рифы. Его учебный набор данных почти в два раза больше, чем в предыдущей версии, включая более широкий спектр вокализаций животных, включая млекопитающих и амфибии, наряду с антропогенным шумом из общественных источников, таких как Xeno-Canto и Inaturalist.

Это расширенное обучение позволяет Perch 2.0 распутать сложные акустические сцены на тысячах или даже миллионы часов аудиоданных. Его универсальность позволяет ему отвечать на различные экологические вопросы, такие как количественная оценка новых родов или оценка популяций животных в данной области.

Приверженность открытой науке очевидна, поскольку Perch 2.0 открыта и доступна на Kaggle, способствуя широкому распространению научным сообществом. С момента своего первоначального запуска в 2023 году первая версия Perch была загружена более 250 000 раз, интегрируя свои решения с открытым исходным кодом в инструменты для работающих биологов, таких как Analyzer Cornell's Birdnet.

Perch уже облегчил значительные открытия, в том числе новое население неуловимого Wanderer в Австралии, демонстрируя ощутимое влияние ИИ на сохранение. Он также оказался эффективным в выявлении отдельных птиц и отслеживании численности птиц, что потенциально снижает необходимость в традиционных, более инвазивных исследованиях улавливания и выпуска.

«Горький урок» в биоакустике: устойчивая сила надзора

Ключевое понимание, возникающее в результате развития Perch 2,0, бросает вызов преобладающей тенденции в более широком ландшафте ИИ: доминирование крупных, самоотверженных моделей фундамента. В таких областях, как обработка естественного языка (NLP) и компьютерное зрение (CV), достижения в значительной степени поступают из самоотверженных моделей, обученных огромным количеству немеченых данных, адаптируемых к различным нижестоящим задачам с минимальной точной настройкой. Тем не менее, в биоакустике успех Perch 2.0 усиливает то, что его разработчики называют «Урок биттерна»: эти простые, контролируемые модели остаются трудно победить.

Это наблюдение предполагает, что, хотя самоотверженные методы являются мощными, их успех часто зависит от невероятно больших моделей и немеченых наборов данных, иногда сотни миллионов примеров. Напротив, даже большие биоакустические наборы данных, такие как Xeno-Canto и Inaturalist, на порядки меньше. Кроме того, самоотверженные методы в значительной степени зависят от целей обучения, специфичных для домена, а также оптимальные конфигурации для общих аудио-задач остаются активной областью исследований.

Биоакустика, однако, особенно подходит для контролируемого обучения. Perch 2.0 был обучен более 1,5 миллионами помеченных записей. Исследования показывают, что при наличии достаточных помеченных примеров, превосходящие контролируемые модели становится все более сложным. Более того, контролируемые преимущества предварительного обучения значительно значительно от мелкозернистых этикеток.

Биоакустика по своей природе имеет дело с более чем 15 000 классов, часто требующих различий между видами в пределах одного рода; очень мелкозернистая проблема. Было показано, что уменьшение гранулярности лейблов при контролируемом обучении ухудшает производительность обучения трансферу. Огромное разнообразие птиц и универсальных механизмов производства звука у наземных позвоночных также способствует успешной передаче моделей, обученных птичьим вокализациям в удивительно широкий спектр других биоакустических доменов.

Эта аналитическая перспектива предполагает, что для доменов с богатыми, мелкозернистыми маркированными данными и конкретными характеристиками хорошо настроенные модели могут достичь современной производительности без необходимости массового, общего самоотверженного предварительного обучения.

Под капотом: архитектурные инновации Perch 2.0

Превосходная производительность Perch 2.0 основана на нескольких ключевых архитектурных и учебных инновациях. Модель основана на EffectNet-B3, сверточной остаточной сети с 12 миллионами параметров, которая больше, чем оригинальная модель окуня для размещения увеличенных данных обучения, но остается относительно небольшим в соответствии с современными стандартами машинного обучения, что способствует вычислительной эффективности.

Этот компактный размер позволяет практикующим специалистам запускать модель на оборудовании потребительского уровня, облегчая надежную кластеризацию и поисковые процессы в ближайшем сходе.

Методология обучения включает в себя:

  • Обобщенное смешивание: методика увеличения данных, которая смешивает более двух источников аудио для создания композитных сигналов. Это побуждает модель распознавать все вокализации в аудио -окне с высокой уверенностью, независимо от громкости.
  • Самообогащение: процесс, в котором классификатор прототипа обучения действует как «учитель» для линейного классификатора, генерируя мягкие цели, которые улучшают общую производительность модели.
  • Прогноз источника: самоотверженная вспомогательная потеря, которая обучает модель для прогнозирования исходной записи аудио-окна, даже из непересекающихся сегментов. Это можно рассматривать как чрезвычайно мелкозернистую проблему классификации, способствуя ее эффективности.

PERCH 2.0 обучался на наборе данных с несколькими таксами, объединяющим Xeno-Canto, INATURALIST, TIERTIMMENARCHIV и FSD50K, охватывающие почти 15 000 различных классов, в первую очередь видовые этикетки. Выбор гиперпараметра использовал Vizier, алгоритм оптимизации черного ящика, для поиска оптимальных скоростей обучения, скорости отсева и параметров смешивания, обеспечивая надежную производительность в разных задачах.

Процедура оценки модели тщательно проверяет его возможности обобщения в разных птичьих звуковых ласках, невидовых идентификационных задач (например, типа вызовов) и переносится на неавийские таксоны (летучих мышей, морские млекопитающие, комары), используя ориентиры, такие как птицы и бобы.

Гибкое моделирование: революция рабочих процессов сохранения

Помимо самой модели, Google DeepMind разработала Agile Modeling, общую, масштабируемую и эффективную систему данных, которая использует возможности Perch для разработки новых биоакустических распознавателей менее чем за час. Эта структура решает критические проблемы в традиционных биоакустических рабочих процессах, в частности, необходимость обширных данных обучения и специализированного опыта машинного обучения.

Основные компоненты гибкого моделирования включают:

  • Очень обобщаемые акустические встраивания: предварительно обученные встраивания Perch служат статической моделью биоакустического фундамента, действуя как экстракторы признаков, которые минимизируют голод данных. Это имеет решающее значение, потому что если функция встраивания изменилась во время обучения, переработка массивных наборов данных займет дни, что препятствует масштабируемости. Статические встраивания позволяют непрерывному активному петлю обучения, сокращая время поиска и поиска до секунды.
  • Индексированный поиск звука: это позволяет эффективно создавать наборы данных обучения классификатора. Пользователь предоставляет пример аудиоклипов, который встроен, а затем сравнивает с предварительно рассчитанными встроениями, чтобы выявить наиболее похожие звуки для аннотации. Этот «векторный поиск» может обрабатывать более миллиона встраиваний в секунду (около 1500 часов аудио) на персональном компьютере, обеспечивая эффективную альтернативу человеческому обзору грубой силы, особенно для редких сигналов.
  • Эффективный цикл активного обучения: простой (часто линейный) классификатор обучается аннотированным встраиванию. Поскольку встроения предварительно рассчитываются и статичны, обучение занимает менее минуты, без специализированного оборудования. Активная петля обучения затем выдвигает новых кандидатов для аннотации, объединяя примеры высшего показателя с пример из широкого спектра квантилей оценки («Top 10 + Quantile»), обеспечивая как точность, так и разнообразие в сборе данных.

Эта система гарантирует, что классификаторы могут быть разработаны быстро и адаптивно, что делает их возможными для экспертов по домену для эффективного решения новых биоакустических проблем.

Реальное воздействие: тематические исследования в действии

Эффективность окуня и гибкого моделирования была продемонстрирована в различных, реальных проектах по сохранению:

Гавайские медовые кареты: отслеживание исчезающих видов

Гавайские медовые кареты сталкиваются с серьезными угрозами со стороны птичьей малярии, распространяемой не комарами. Мониторинг ювенильного вокализации может указывать на снижение распространенности заболеваний и репродуктивного успеха, но эти вызовы часто трудно различить. Лаборатория биоакустики Lohe на Гавайском университете использовала окунь для мониторинга популяций медового цвета, обнаружив звуки почти в 50 раз быстрее, чем их обычные методы, позволяя им контролировать больше видов в больших районах.

В прямом эксперименте прямого времени вручную сканируя 7 часов аудио для песен Leiothrix с красным путем, заняв более 4 часов, что дает 137 положительных образцов. Напротив, рассмотрение 500 лучших образцов, поднимающихся при векторном поиске, заняло менее 20 минут, что дало 472 положительных обнаружений, что делает подход к поиску вектора в 43 раза быстрее.

Адфейльное моделирование позволило разработать классификаторы для взрослых и ювенильных вокализаций, находящихся под угрозой исчезновения ‘Akiapōlā‘au и‘ alaw̄ı, достигнув высокой точности (0,97–1,0) и показателей ROC-AUC (≥ 0,81). Это продемонстрировало способность системы разблокировать здоровье населения и поведенческое мониторинг, адаптируясь к категориям гранулированных вокалов.

Коралловые рифы: открытие подводной экосистемы здоровья

Мониторинг проектов восстановления коралловых рифов часто является узким из -за сложности и затрат на наблюдение. Звуковой пейзаж кораллового рифа является жизненно важным показателем его здоровья и функционирования, опосредуя набор ювенильной рыбы и кораллов. Agile Modeling использовалось для создания классификаторов для девяти предполагаемых рыбных сонотипов в среде кораллового рифа в Индонезии.

Встраиваемые встраивались с использованием Surfperch, варианта окуня, оптимизированного для звука кораллового рифа. Человеческая маркировка для этих девяти сонотипов заняла совокупную 3,09 часа, что дало очень точные классификаторы с минимальным ROC-AUC 0,98. Анализ выявил более высокое содержание и разнообразие рыбных сонотипов на здоровых и восстановленных участках по сравнению с деградированными участками, особенно вызванными «пульсными поездами» и «погремленными» сонотипами. Это демонстрирует способность системы работать в совершенно другой подводной среде и для звуков, биологическое происхождение которого изначально может быть не определен.

Остров Рождества: мониторинг масштабирования редких птиц

Мониторинг птиц на отдаленных островах, таких как остров Рождества, имеет решающее значение для сохранения, но сложная из -за недоступности и отсутствия существующих акустических данных для многих эндемичных видов. Адфейльное моделирование использовалось для разработки классификаторов для трех видов с низким содержанием данных: Изумрудный голубь Рождества, ястреб и молочница.

Несмотря на чрезвычайно ограниченное начальное обучение данных, итеративное активное обучение производило высококачественные классификаторы для всех трех видов, при этом ROC-AUC превышает 0,95, менее чем за час аналитика времени на классификатор. Система продемонстрировала свою масштабируемость до очень больших наборов данных, обрабатывая сотни тысяч часов аудио. Показатели обнаружения выявили изменчивость использования места по всему острову, предоставляя ценную информацию о целевых усилиях по сохранению.

Практическое понимание практикующих

Смоделированные эксперименты, проведенные наряду с тематическими исследованиями, предлагали дополнительные практические рекомендации:

  • Качество функции встраивания: качество функции встраивания значительно влияет на производительность гибкого моделирования. Модели, обученные данными, специфичными для биоакустики, такие как Birdnet, Perch и Surfperch, последовательно превосходят более общие аудио представления.
  • Активная стратегия обучения: стратегия активного обучения «Top 10 + Quantile» обеспечивает надежный баланс для различных режимов данных (низкий, средний, высокий численность), эффективно опираясь на сильные стороны как «наиболее уверенности», так и «квантильных» стратегий.
  • Управление типом вызова: для видов с несколькими типами вызовов «сбалансированный поисковый запрос» (содержащий один вокализация каждого типа вызовов), за которым следует аннотация на уровне видов, как правило, повышает производительность типов вызовов меньшинств, не жертвуя общей точностью уровня видов.

В среднем время обзора человека для примеров составило 4,79 секунды на 5 секунду, что означает, что рецензент может обрабатывать около 720 примеров в час, что достаточное для быстрого производства классификаторов хорошего качества.

Заключительные мысли: будущее ИИ в сохранении

Работа над Perch 2.0 и Agile Modeling демонстрирует широкую эффективность ИИ в биоакустике, соответствует критическим критериям эффективности, адаптивности, масштабируемости и качества в экологических исследованиях и сохранении. Эта ускоренная разработка модели обещает облегчить исследования в гораздо более широком диапазоне вопросов, даже если данные о обучении мало, такие как мониторинг призывов несовершеннолетних для здоровья населения или отслеживание чрезвычайно редких птиц.

Бесплатная интеграция данных обнаружения из новых классификаторов в понимание экосистемы, как видно из коралловых рифов и острова Рождества, отмечает значительный шаг вперед.

Хотя был достигнут значительный прогресс, возможности для будущей работы включают в себя включение приблизительного поиска ближайших соседей (ANN) для еще больших наборов данных, уточнение аудио представлений для биоакустики для повышения производительности в худшем случае и разработки более сложных стратегий для обработки видов с множеством типов вокализации. Успех этих инструментов, управляемых AI, обладает огромным потенциалом для улучшения понимания как наземных, так и морских экосистем, что в конечном итоге способствует более эффективному управлению исчезающими и инвазивными видами во всем мире.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE