Введение в активное обучение

Введение в активное обучение

19 июня 2023 г.

В современном мире у нас есть доступ к огромному количеству данных благодаря мощным моделям искусственного интеллекта, таким как ChatGPT, а также модели зрения и другие подобные технологии. Однако речь идет не только о количестве данных, на которые опираются эти модели, но и о качестве. Быстрое и масштабное создание хорошего набора данных может оказаться сложной и дорогостоящей задачей.

Вот где начинается активное обучение.

Проще говоря, активное обучение направлено на оптимизацию аннотаций вашего набора данных и обучение наилучшей возможной модели с использованием наименьшего количества обучающих данных.

Это контролируемый подход к обучению, который включает в себя итеративный процесс между прогнозами вашей модели и вашими данными. Вместо того, чтобы ждать полного набора данных, вы можете начать с небольшого пакета тщательно отобранных аннотированных данных и обучить с его помощью свою модель.

Затем, используя активное обучение, вы можете использовать свою модель для маркировки невидимых данных, оценки точности прогнозов и выбора следующего набора данных для аннотирования на основе функций сбора данных.

<цитата>

Одним из преимуществ активного обучения является то, что вы можете анализировать уровень достоверности прогнозов вашей модели.

Если прогноз имеет низкую достоверность, модель запросит пометку дополнительных изображений этого типа. С другой стороны, прогнозы с высокой достоверностью не требуют дополнительных данных. Аннотируя меньшее количество изображений в целом, вы экономите время и деньги, получая при этом оптимизированную модель. Активное обучение — многообещающий подход к работе с большими наборами данных.

Representation of active learning. Image from Kumar et al.

Есть несколько ключевых моментов, которые следует помнить об активном обучении.

Во-первых, он включает аннотацию человеком, что дает вам возможность контролировать качество прогнозов вашей модели. Это не черный ящик, обученный на миллионах изображений. Вы активно участвуете в его развитии и помогаете улучшить его работу. Этот аспект делает активное обучение важным и интересным, даже несмотря на то, что оно может увеличить затраты по сравнению с неконтролируемыми подходами. Однако время, сэкономленное на обучении и развертывании модели, часто перевешивает эти затраты.

Кроме того, вы можете использовать автоматические инструменты аннотаций и исправлять их вручную, что еще больше сокращает расходы.

При активном обучении у вас есть помеченный набор данных, на котором обучается ваша модель, а неразмеченный набор содержит потенциальные данные, которые еще не были аннотированы. Важнейшей концепцией являются стратегии запросов, которые определяют, какие данные следует маркировать. Существуют различные подходы к поиску наиболее информативных подмножеств в большом пуле неразмеченных данных. Например, выборка по неопределенности включает проверку вашей модели на неразмеченных данных и выбор наименее надежно классифицированных примеров для аннотации.

Representation of active learning with the Query by Committee approach. Image from Kumar et al.

Еще один метод активного обучения — это метод Query by Committee (QBC), когда несколько моделей, каждая из которых обучена на своем подмножестве размеченных данных, образуют комитет. Эти модели имеют разные взгляды на проблему классификации, так же как люди с разным опытом по-разному понимают определенные концепции. Данные для аннотирования выбираются на основе разногласий между моделями комитетов, что указывает на сложность. Этот итеративный процесс продолжается, поскольку выбранные данные постоянно аннотируются.

Это всего лишь базовое объяснение активного обучения, демонстрирующее один пример стратегии запросов.

Если вам интересно, я могу предоставить дополнительную информацию или видео о других стратегиях машинного обучения. Реальный пример активного обучения — это когда вы отвечаете на капчи в Google. Тем самым вы помогаете им идентифицировать сложные изображения и создавать наборы данных с коллективным вводом нескольких пользователей, обеспечивая как качество набора данных, так и проверку человеком. Итак, в следующий раз, когда вы столкнетесь с капчей, помните, что вы вносите свой вклад в развитие моделей ИИ!

Чтобы узнать больше и увидеть практический пример использования превосходного инструмента, разработанного моими друзьями из Encord, посмотрите видео:

https://youtu.be/Zv6UzuwUBd4?embedable=true&transcript=true


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE