20 лучших наборов данных PyTorch для построения моделей глубокого обучения

20 лучших наборов данных PyTorch для построения моделей глубокого обучения

27 февраля 2023 г.

Двумя наиболее широко используемыми платформами машинного обучения с открытым исходным кодом для обучения и создания моделей глубокого обучения являются TensorFlow и PyTorch.

Эти фреймворки имеют уникальные различия в подходе к построению и обучению моделей. В то время как TensorFlow использует статический граф и декларативное программирование, что обеспечивает лучшие возможности оптимизации и позволяет проводить распределенное обучение, PyTorch использует динамический вычислительный граф и императивное программирование, что обеспечивает более гибкий и простой процесс отладки. Выбор фреймворков зависит от конкретных потребностей и предпочтений пользователя.

В этой статье рассматриваются лучшие наборы данных PyTorch для построения моделей глубокого обучения, доступные на сегодняшний день.

Полный список открытых наборов данных PyTorch


1. Пенн Трибанк

The Penn Treebank – это коллекция аннотированных текстов на английском языке, которая широко изучается в исследовательском сообществе по обработке естественного языка (NLP). Он содержит более 4,5 миллионов слов текста из различных жанров, таких как журналы, новостные статьи и художественные рассказы. Набор данных также состоит из аннотированной вручную информации о названиях имен, тегах частей речи и синтаксической структуре, используемых для обучения и оценки широкого спектра моделей НЛП, включая языковые модели, синтаксические анализаторы и системы машинного перевода.

Чтобы загрузить этот набор данных, нажмите здесь.

2. Стэнфордский набор данных для ответов на вопросы (SQuAD)

SQuAD (Стэнфордский набор данных для ответов на вопросы) – это популярный эталонный набор данных для обработки естественного языка (NLP), содержащий более 100 000 пар вопросов и ответов, извлеченных из набора статей Википедии. Он используется для оценки производительности различных моделей НЛП, созданных с использованием PyTorch или других сред глубокого обучения. Диапазоны ответов имеют среднюю длину 3,6 слова, а в соответствующих отрывках в среднем 11,0 слов.

Дополнительная информация о SQuAD:

SQuAD 1.0 — содержит более 100 000 вопросов. ответьте парами на 536 статей из англоязычной Википедии.

SQuAD 2.0 – Он содержит более 150 000 пар вопросов и ответов по более чем 100 000 статей Википедии, а также дополнительные вопросы, на которые невозможно ответить, чтобы проверить способность модели воздерживаться от ответа.

Цель набора данных — предоставить сложную задачу для моделей машинного обучения, чтобы ответить на вопросы о заданном отрывке текста. Нажмите здесь, чтобы загрузить последнюю версию (SQuAD 2.0).

3. Консорциум базы данных изображений легких и Инициатива по ресурсам базы данных изображений (LIDC-IDRI)

Этот набор данных PyTorch представляет собой общедоступный набор данных компьютерных томографических изображений органов грудной клетки, который был аннотирован несколькими радиологами на наличие узлов в легких. Он включает 1018 КТ-снимков, полученных из различных учреждений, и содержит более 23 000 аннотированных узелков.

Каждое сканирование в наборе данных сопровождается аннотациями от четырех опытных рентгенологов, которые предоставляют информацию о форме, размере, расположении и текстуре узелков. Набор данных был создан для поддержки исследований в области разработки систем автоматизированной диагностики (CAD) для скрининга и диагностики рака легких.

Примечание. Набор данных общедоступен, но на его использование распространяются определенные ограничения и требования.

Нажмите здесь для загрузки.

4. Fashion-MNIST

Набор данных PyTorch Fashion MNIST был создан Zalando Research в качестве замены исходного набора данных MNIST и доступен в формате, совместимом с PyTorch. Набор данных PyTorch Fashion MNIST содержит 70 000 изображений предметов одежды в оттенках серого, включая 60 000 обучающих и 10 000 тестовых изображений.

Изображения имеют размер 28x28 пикселей и представляют 10 различных классов предметов одежды, включая футболки/топы, брюки, пуловеры, платья, пальто, сандалии, рубашки, кроссовки, сумки и ботильоны. Он похож на исходный набор данных MNIST, но с более сложными задачами классификации из-за большей сложности и разнообразия предметов одежды.

Набор данных можно загрузить здесь.

5. Отзывы Yelp

Набор данных Yelp Reviews представляет собой обширную коллекцию из более чем 5 миллионов отзывов о местных компаниях из 11 мегаполисов США. Каждый отзыв в наборе данных содержит такую ​​информацию, как звездный рейтинг, бизнес-категория, текст отзыва, дата и местоположение. Это ценный ресурс, посвященный созданию моделей глубокого обучения с помощью PyTorch.

n Зарегистрируйтесь и нажмите здесь, чтобы загрузить набор данных.

6. Стэнфордские собаки

Этот набор данных PyTorch содержит коллекцию из 20 580 высококачественных изображений 120 различных пород собак, каждое из которых помечено информацией о породе собаки на изображении. Его можно использовать для классификации изображений и распознавания объектов. С набором данных, предоставленным в формате JPEG, и аннотациями в текстовом файле изображения имеют размер 224x224 пикселей. Породы в наборе данных варьируются от широко распространенных, таких как золотистые ретриверы и лабрадоры, до менее известных пород, таких как оттерхаунд и сассекс-спаниель.

Вы можете загрузить набор данных здесь.

7. Калифорнийский технологический институт 101

Несмотря на то, что ограниченное количество изображений в каждой категории может быть проблемой, подробные аннотации делают набор данных PyTorch Caltech 101 ценным ресурсом для оценки моделей глубокого обучения. Набор данных представляет собой размеченный набор данных компьютерного зрения с 9 144 высококачественными изображениями объектов в 101 категории. Он также охватывает широкий спектр категорий объектов, а изображения были получены из различных источников. Каждое изображение помечено категорией объекта и изображения, что упрощает его использование с различными платформами глубокого обучения.

Нажмите здесь, чтобы загрузить.

8. STS-B (тест семантического текстового сходства)

Набор данных STS-B (Semantic Textual Similarity Benchmark) – это набор данных на английском языке, который использовался в задачах STS, организованных в контексте SemEval в период с 2012 по 2017 год. до 5. Полученный из различных источников, таких как новостные статьи, сообщения на форумах, изображения с подписями и охватывающий широкий круг тем, это популярный набор данных, используемый с PyTorch для оценки производительности моделей при определении семантического сходства между двумя предложениями. Набор данных STS-B доступен в нескольких форматах, в том числе в форматах, совместимых с PyTorch, поскольку PyTorch представляет собой платформу глубокого обучения для обучения и оценки моделей в этом наборе данных.

Чтобы загрузить этот набор данных, нажмите здесь< /сильный>.

9. WMT'14 английский-немецкий

Этот набор данных PyTorch – эталонный набор данных для машинного перевода между английским и немецким языками, созданный Стэнфордским университетом в 2015 году. Он содержит параллельные корпуса текстов, выровненных по предложениям, на английском и немецком языках, которые используются для построения и оценки моделей глубокого обучения. В то время как тестовые наборы содержат 3000 пар предложений каждый, обучающий набор состоит примерно из 4,5 миллионов пар предложений, а средняя длина предложения составляет 26 слов на английском языке и 30 слов на немецком языке, при этом словарный запас составляет около 160 000 слов для английского языка и 220 000 слов для английского языка. немецкий.

Вы можете прокрутить вниз и загрузить его здесь.

10. CelebA

Это популярный крупномасштабный набор данных об атрибутах лиц, содержащий более 200 000 изображений знаменитостей. Впервые он был выпущен исследователями из Китайского университета Гонконга в 2015 году. Изображение в CelebA состоит из 40 атрибутов лица, таких как возраст, цвет волос, выражение лица и пол. Кроме того, эти изображения были получены из Интернета и охватывают широкий спектр лиц, включая разные расы, возраст и пол. Аннотации ограничительной рамки для расположения лица на каждом изображении, а также 5 ориентиров для глаз, носа и рта.

Примечание. Набор данных CelebA находится под лицензией Creative Commons Attribution-Noncommercial-Share, что позволяет использовать его в некоммерческих исследовательских целях при условии указания авторства.

Чтобы использовать набор данных CelebA в PyTorch, вы можете использовать класс torchvision.datasets.CelebA, который является частью модуля torchvision. Вы можете загрузить набор данных с веб-сайта или < a href="https://www.kaggle.com/datasets/jessicali9530/celeba-dataset">здесь.

11. UCF101

Набор данных UFC101 широко используется для классификации видео в области компьютерного зрения. Он включает 13 230 видеороликов о действиях человека из 101 категории действий, каждая из которых содержит от 100 до 300 видеороликов. Набор данных PyTorch UCF101 — это предварительно обработанная версия исходного UCF101, готовая к использованию в PyTorch. Предварительно обработанный набор данных содержит видеокадры, которые были нормализованы и изменены в размере, включая соответствующие метки для каждого видео. Он также разделен на три набора: обучение, проверка и тестирование, примерно 9 500, 3 500 и 3 000 видео соответственно.

Чтобы загрузить набор данных, нажмите здесь.

12. HMDB51

Набор данных HMDB51 представляет собой набор видео, извлеченных из различных источников, включая фильмы, телешоу и онлайн-видео, включающий 51 класс действий, каждый из которых содержит не менее 101 видеоклипа. Он был создан исследователями из Университета Центральной Флориды в 2011 году для исследований в области распознавания действий человека. Видео представлены в формате AVI и имеют разрешение 320x240 пикселей, с достоверными аннотациями для каждого видео, включая метку класса действия и начальный и конечный кадры действия в видео. Каждое видео в наборе данных представляет человека, выполняющего действие перед статической камерой. Действия включают в себя широкий спектр ежедневных действий, таких как прыжки, размахивание руками, питье и чистка зубов, а также сложные действия, такие как игра на гитаре и катание на лошадях.

Примечание. Он используется вместе с набором данных UCF101. , который содержит большее количество классов действий, но с меньшим количеством видео в каждом классе.

Вы можете скачать набор данных здесь .

13. ActivityNet

ActivityNet – это крупномасштабный набор данных для понимания видео, содержащий более 20 000 видео из различных категорий, таких как кулинария, спорт, танцы и т. д. Средняя продолжительность видео – 3 минуты, а аннотации – в среднем 1,41 активности. сегменты. Он доступен в PyTorch, который легко использовать в средах глубокого обучения. Версия PyTorch предлагает предварительно обработанные функции, извлеченные из кадров RGB и полей оптического потока каждого видео, а также наземные аннотации для временных сегментов и метки активности.

Вы можете скачать набор данных здесь.

14. Набор данных VOC (классы визуальных объектов)

Набор данных VOC (Visual Object Classes) был впервые представлен в 2005 году в рамках конкурса PASCAL VOC Challenge, целью которого было продвижение современного уровня визуального распознавания. Он состоит из изображений 20 различных категорий объектов, включая животных, транспортные средства и обычные бытовые предметы. Каждое из этих изображений снабжено аннотациями с расположением и классификацией объектов на изображении. Аннотации включают в себя как ограничивающие рамки, так и маски сегментации на уровне пикселей. Набор данных разделен на два основных набора: обучающий и проверочный. Учебный набор содержит около 5000 изображений с аннотациями, а проверочный набор содержит около 5000 изображений без аннотаций. Кроме того, в набор данных также входит тестовый набор, содержащий примерно 10 000 изображений, но аннотации к этому набору не являются общедоступными.

Чтобы загрузить последний набор данных, вы можете скачать его с веб-сайта, загрузить его в Python с помощью нашего Deep Lake с открытым исходным кодом, написав всего одну строку кода, или загрузите его с сайта Kaggle.

15. YCB-видео

Этот набор данных представляет собой набор 3D-моделей объектов и видеорядов, предназначенных для задач распознавания объектов и оценки позы. Он содержит 21 предмет повседневного обихода, каждый из которых снят в различных условиях освещения и с разных точек зрения камеры. Набор данных содержит наземные аннотации на уровне пикселей и обычно используется для оценки алгоритмов компьютерного зрения и роботизированных систем.

Нажмите здесь, чтобы загрузить набор данных.

16. КИТТИ

Набор данных KITTI представляет собой набор данных компьютерного зрения для исследований в области автономного вождения. Он включает в себя более 4000 изображений с высоким разрешением, облака точек LIDAR и данные датчиков автомобиля, оснащенного различными датчиками. Набор данных содержит аннотации для обнаружения, отслеживания и сегментации объектов, а также карты глубины и параметры калибровки. Набор данных KITTI широко используется для обучения и оценки моделей глубокого обучения для автономного вождения и робототехники.

Чтобы загрузить последний набор данных, вы можете загрузить его с веб-сайта, < strong>GitHub или загрузите его с сайта Kaggle.

17. БраТС

Набор данных BRATS PyTorch представляет собой набор сканов магнитно-резонансной томографии (МРТ) для сегментации опухоли головного мозга. Он состоит из более чем 200 трехмерных изображений головного мозга с высоким разрешением, каждое из которых имеет четыре модальности (T1, T1c, T2 и FLAIR) и соответствующие маски бинарной сегментации. Набор данных обычно используется для обучения и оценки моделей глубокого обучения для автоматического обнаружения и сегментации опухолей головного мозга.

Вы можете загрузить этот набор данных на Kaggle, нажав здесь< /сильный>.

18. Парсинг с участием нескольких человек

Набор данных PyTorch для синтаксического анализа нескольких людей представляет собой крупномасштабный набор данных изображений человека с аннотациями на уровне пикселей для анализа частей человеческого тела. Он содержит более 26 000 изображений людей, каждое из которых разделено на 18 меток человеческих частей. Набор данных используется для обучения и оценки моделей глубокого обучения для оценки позы человека, сегментации и распознавания действий.

Чтобы загрузить набор данных, нажмите здесь.

19. Шарады

Этот набор данных представляет собой крупномасштабный набор видеоданных для распознавания и локализации действий. Он включает более 9800 видеороликов о повседневных занятиях, таких как приготовление пищи, уборка и общение, со средней продолжительностью 30 секунд на каждое видео. Набор данных предоставляет подробные аннотации для каждого видео, в том числе временные границы для действий и атомарные визуальные концепции, что делает его подходящим для обучения и оценки моделей глубокого обучения для распознавания, обнаружения и сегментации действий.

Набор данных Charades PyTorch широко используется в сообществе исследователей компьютерного зрения и доступен бесплатно для загрузки. и использовать.

20. Технический университет Берлина

Этот набор данных представляет собой богатую коллекцию изображений с высоким разрешением и поз трехмерных объектов для обнаружения объектов и оценки поз. Он содержит более 11 000 изображений 60 категорий объектов с аннотациями для 2D- и 3D-поз. Благодаря большому размеру и разнообразию категорий объектов набор данных TU Berlin PyTorch представляет собой отличный испытательный стенд для разработки надежных и точных моделей обнаружения объектов и оценки позы.

Вы можете получить набор данных прямо с веб-сайта, нажав здесь.

Распространенные варианты использования наборов данных PyTorch

Обработка естественного языка

Компьютерное зрение

Анализ медицинских изображений

Распознавание человеческой деятельности

Заключительные мысли

PyTorch полезен для исследований и экспериментов, когда основное внимание часто уделяется разработке моделей глубокого обучения и изучению новых подходов. Кроме того, PyTorch заработал репутацию исследовательской среды с растущим сообществом разработчиков и исследователей, вносящих свой вклад в экосистему. n n Эти наборы данных применимы во многих областях, а также доступны для свободного скачивания и использования любым пользователем.


Главное изображение этой статьи было создано с помощью модели HackerNoon AI Stable Diffusion с использованием подсказки «Наложенные изображения PyTorch».


Оригинал