16 лучших наборов данных Sklearn для построения моделей машинного обучения

16 лучших наборов данных Sklearn для построения моделей машинного обучения

16 апреля 2023 г.

Данные поддерживают алгоритмы машинного обучения, а scikit-learn или sklearn предлагает высококачественные наборы данных, которые широко используются исследователями, практиками и энтузиастами. Scikit-learn (sklearn) — это модуль Python для машинного обучения, созданный поверх SciPy. Он уникален благодаря широкому спектру алгоритмов, простоте использования и интеграции с другими библиотеками Python.

Что такое «наборы данных Sklearn»?

Наборы данных Sklearn входят в состав библиотеки scikit-learn (sklearn), поэтому они поставляется с предустановленной библиотекой. Благодаря этому вы можете легко получить доступ к этим наборам данных и загрузить их без необходимости загружать их отдельно.

Чтобы использовать определенный набор данных, вы можете просто импортировать его из модуля sklearn.datasets и вызвать соответствующую функцию для загрузки данных в вашу программу.

Эти наборы данных обычно предварительно обработаны и готовы к использованию, что экономит время и усилия специалистов по работе с данными, которым необходимо экспериментировать с различными моделями и алгоритмами машинного обучения.

Полный список наборов данных в библиотеке Sklearn

  1. Ирис
  2. Диабет
  3. Цифры
  4. Линнеруд
  5. Вино
  6. Рак молочной железы, штат Висконсин
  7. Жилье в Бостоне
  8. Лица Оливетти
  9. Жилье в Калифорнии
  10. МНИСТ
  11. Fashion-MNIST
  12. сделать_классификацию
  13. сделать_регрессию
  14. создать_blobs
  15. make_moons и make_circles
  16. Сделать_sparse_coded_signal

Предустановленные (игрушечные) наборы данных Sklearn

1. Ирис

Этот набор данных включает измерения длины чашелистиков, ширины чашелистиков, длины и ширины лепестков 150 цветков ириса, принадлежащих к 3 разным видам: setosa, versicolor и virginica. Набор данных ириса состоит из 150 строк и 5 столбцов, которые хранятся в виде фрейма данных, включая столбец для видов каждого цветка.

Переменные включают:

* Sepal.Length — sepal.length представляет длину чашелистика в сантиметрах. * Sepal.Width — ширина чашелистика представляет ширину чашелистика в сантиметрах. * Petal.Length — длина лепестка представляет собой длину лепестка в сантиметрах. * Виды. Переменная вида представляет вид цветка ириса с тремя возможными значениями: setosa, versicolor и virginica.

Вы можете загрузить набор данных iris непосредственно из sklearn, используя функцию load_iris из модуля sklearn.datasets.

# To install sklearn
pip install scikit-learn

# To import sklearn
from sklearn.datasets import load_iris

# Load the iris dataset
iris = load_iris()

# Print the dataset description
print(iris.describe())

Код для загрузки набора данных Iris с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.load_iris.html от 27 марта 2023 г.

2. Диабет

Этот набор данных sklearn содержит информацию о 442 пациентах с диабетом, включая демографические и клинические данные: n

Набор данных Diabetes можно загрузить с помощью функции load_diabetes() из модуля sklearn.datasets.

Код для загрузки набора данных Diabetes с помощью sklearn. Получено с https://scikit-learn.org/stable/datasets/toy_dataset.html. #diabetes-dataset от 28 марта 2023 г.

3. Цифры

Этот набор данных sklearn представляет собой набор рукописных цифр от 0 до 9, сохраненных в виде изображений в градациях серого. Он содержит в общей сложности 1797 выборок, каждая из которых представляет собой двумерный массив формы (8,8). В наборе данных sklearn digits есть 64 переменные (или функции), соответствующие 64 пикселям в каждом изображении цифр.

Набор данных Digits можно загрузить с помощью функции load_digits() из модуля sklearn.datasets.

from sklearn.datasets import load_digits

# Load the digits dataset
digits = load_digits()

# Print the features and target data
print(digits.data)
print(digits.target)

Код для загрузки набора данных Digits с помощью sklearn. Получено с https://scikit-learn.org /stable/datasets/toy_dataset.html#optical-recognition-of-handwriting-digits-dataset от 29 марта 2023 г.

4. Линнеруд

Набор данных Linnerud содержит физические и физиологические измерения 20 профессиональных спортсменов.

Набор данных включает следующие переменные:

* Три переменные физических упражнений - подтягивания, приседания и прыжки. * Три физиологические измеряемые переменные: пульс, систолическое артериальное давление и диастолическое артериальное давление.

Чтобы загрузить набор данных Linnerud в Python с помощью sklearn:

from sklearn.datasets import load_linnerud
linnerud = load_linnerud()

Код для загрузки набора данных linnerud с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 27 марта 2023 г.

5. Вино

Этот набор данных sklearn содержит результаты химического анализа вин, выращенных в определенной области Италии, для классификации вин по соответствующим сортам.

Некоторые переменные в наборе данных:

* Алкоголь * Яблочная кислота * Пепел * Щелочность золы * Магний * Всего фенолов * Флаваноиды

Набор данных Wine можно загрузить с помощью функции load_wine() из модуля sklearn.datasets.

from sklearn.datasets import load_wine

# Load the Wine dataset
wine_data = load_wine()

# Access the features and targets of the dataset
X = wine_data.data  # Features
y = wine_data.target  # Targets

# Access the feature names and target names of the dataset
feature_names = wine_data.feature_names
target_names = wine_data.target_names

Код для загрузки набора данных Wine Quality с помощью sklearn. Получено с https://scikit-learn.org/stable/datasets/toy_dataset. .html#wine-recognition-dataset от 28 марта 2023 г.

6. Набор данных по раку молочной железы, штат Висконсин< /сильный>

Этот набор данных sklearn содержит информацию об опухолях рака молочной железы. Первоначально он был создан доктором Уильямом Х. Вольбергом. Набор данных был создан, чтобы помочь исследователям и специалистам по машинному обучению классифицировать опухоли как злокачественные (раковые) или доброкачественные (незлокачественные).

Некоторые переменные, включенные в этот набор данных:

* Идентификационный номер * Диагноз (М = злокачественный, В = доброкачественный). * Радиус (среднее расстояние от центра до точек по периметру). * Текстура (стандартное отклонение значений шкалы серого). * Периметр * Область * Гладкость (локальное изменение длины радиуса). * Компактность (периметр^2/площадь - 1,0). * Вогнутость (выраженность вогнутых участков контура). * Вогнутые точки (количество вогнутых частей контура). * Симметрия * Фрактальная размерность ("приближение береговой линии" - 1).

Вы можете загрузить набор данных по раку груди, штат Висконсин, непосредственно из sklearn, используя функцию load_breast_cancer из модуля sklearn.datasets.

from sklearn.datasets import load_breast_cancer

# Load the Breast Cancer Wisconsin dataset
cancer = load_breast_cancer()

# Print the dataset description
print(cancer.describe())

Код для загрузки набора данных по раку молочной железы в Висконсине с использованием sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.load_breast_cancer.html 28 марта 2023 г.

Breast Cancer Wisconsin dataset

Реальные наборы данных Sklearn

Реальные наборы данных sklearn основаны на реальных проблемах, которые обычно используются для практики и экспериментов с алгоритмами и методами машинного обучения с использованием библиотеки sklearn в Python.

7. жилье в Бостоне

Набор данных Boston Housing состоит из информации о жилье в районе Бостона, штат Массачусетс. Он содержит около 506 строк и 14 столбцов данных.

Некоторые переменные в наборе данных включают:

* CRIM - Уровень преступности на душу населения по городам. * ЗН - Доля земель под жилую застройку, зонированная под участки площадью более 25 000 кв.м. * INDUS - Доля акров неторгового бизнеса на город. * CHAS - фиктивная переменная реки Чарльз (= 1, если участок граничит с рекой; 0 в противном случае). * NOX - концентрация оксида азота (частей на 10 миллионов). * RM - Среднее количество комнат в жилом доме. * ВОЗРАСТ - Доля жилых единиц, построенных до 1940 года. * DIS - Взвешенные расстояния до пяти центров занятости Бостона. * RAD - Индекс доступности радиальных магистралей. * НАЛОГ - Полная ставка налога на имущество за 10 000 долларов США. * PTTRATIO - Соотношение учеников и учителей по городам. * B - 1000 (Bk - 0,63) ^ 2, где -Bk - доля чернокожих по городам. * LSTAT - Процент более низкого статуса населения. * MEDV – средняя стоимость домов, занимаемых владельцами, в 1000 долларов США.

Вы можете загрузить набор данных Boston Housing непосредственно из scikit-learn, используя функцию load_boston из модуля sklearn.datasets.

from sklearn.datasets import load_boston

# Load the Boston Housing dataset
boston = load_boston()

# Print the dataset description
print(boston.describe())

Код для загрузки набора данных Boston Housing с помощью sklearn. Получено с https://scikit-learn.org/0.15/modules/generated /sklearn.datasets.load_boston.html 29 марта 2023 г.

8. Olivetti Faces

Набор данных Olivetti Faces представляет собой набор изображений человеческих лиц в градациях серого, сделанных в период с апреля 1992 года по апрель 1994 года в AT&T Laboratories. Он содержит 400 изображений 10 человек, каждый из которых имеет 40 изображений, снятых под разными углами и в разных условиях освещения.

Вы можете загрузить набор данных Olivetti Faces в sklearn с помощью функции fetch_olivetti_faces из модуля наборов данных.

from sklearn.datasets import fetch_olivetti_faces

# Load the dataset
faces = fetch_olivetti_faces()

# Get the data and target labels
X = faces.data
y = faces.target

Код для загрузки набора данных Olivetti Faces с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.fetch_olivetti_faces.html от 29 марта 2023 г.

9. Жилье Калифорнии< /h2>

Этот набор данных sklearn содержит информацию о медианной стоимости домов, а также атрибуты переписных участков в Калифорнии. Он также включает 20 640 экземпляров и 8 функций.

Некоторые переменные в наборе данных:

* MedInc — средний доход в блоке. * HouseAge — средний возраст домов в квартале. * AveRooms — среднее количество комнат на домохозяйство. * AveBedrms — среднее количество спален на домохозяйство. * Население - Население блока. * AveOccup — средняя заполняемость домохозяйства. * Широта - Широта блока в десятичных градусах. * Долгота — долгота блока в десятичных градусах.

Вы можете загрузить набор данных California Housing с помощью функции fetch_california_housing из sklearn.

from sklearn.datasets import fetch_california_housing

# Load the dataset
california_housing = fetch_california_housing()

# Get the features and target variable
X = california_housing.data
y = california_housing.target

Код для загрузки набора данных California Housing с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.fetch_california_housing.html 29/3/2023.

10. MNIST

Набор данных MNIST популярен и широко используется в областях машинного обучения и компьютерного зрения. Он состоит из 70 000 изображений рукописных цифр от 0 до 9 в градациях серого, 60 000 изображений для обучения и 10 000 для тестирования. Каждое изображение имеет размер 28 x 28 пикселей и имеет соответствующую метку, обозначающую, какие цифры оно представляет.

Вы можете загрузить набор данных MNIST из sklearn, используя следующий код:

from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784')

Примечание. Набор данных MNIST является подмножеством набора данных Digits.

Код для загрузки набора данных MNIST с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 30 марта 2023 г.

11. Fashion-MNIST

Набор данных Fashion MNIST был создан Zalando Research в качестве замены исходного набора данных MNIST. Набор данных Fashion MNIST состоит из 70 000 изображений предметов одежды в оттенках серого (60 000 обучающих и 10 000 тестовых).

Изображения имеют размер 28x28 пикселей и представляют 10 различных классов предметов одежды, включая футболки/топы, брюки, пуловеры, платья, пальто, сандалии, рубашки, кроссовки, сумки и ботильоны. Он похож на исходный набор данных MNIST, но с более сложными задачами классификации из-за большей сложности и разнообразия предметов одежды.

Вы можете загрузить этот набор данных sklearn с помощью функции fetch_openml.

from sklearn.datasets import fetch_openml

fmnist = fetch_openml(name='Fashion-MNIST')

n Код для загрузки набора данных Fashion MNIST с помощью sklearn. Получено с __https://scikit-learn.org/stable/ modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml__ 30 марта 2023 г.

Сгенерированные наборы данных Sklearn

Сгенерированные наборы данных sklearn — это синтетические наборы данных, созданные с использованием библиотеки sklearn в Python. Они используются для тестирования, сравнительного анализа и разработки алгоритмов/моделей машинного обучения.

12. make_classification

Эта функция генерирует случайный набор данных классификации n классов с указанным количеством выборок, признаков и информативных признаков.

Вот пример кода для создания этого набора данных sklearn со 100 образцами, 5 функциями и 3 классами:

from sklearn.datasets import make_classification

X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

Этот код генерирует набор данных со 100 образцами и 5 функциями, с 3 классами и 3 информативными функциями. Остальные функции будут избыточными или шумовыми.

Код для загрузки набора данных make_classification с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 30 марта 2023 г.

13. make_regression

Эта функция создает случайный набор данных регрессии с указанным количеством выборок, признаков и шума.

Вот пример кода для создания этого набора данных sklearn со 100 образцами, 5 функциями и уровнем шума 0,1:

from sklearn.datasets import make_regression

X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

Этот код генерирует набор данных со 100 выборками и 5 функциями с уровнем шума 0,1. Целевая переменная y будет непрерывной переменной.

Код для загрузки набора данных make_regression с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 30 марта 2023 г.

14. make_blobs

Эта функция создает случайный набор данных с указанным количеством выборок и кластеров.

Вот пример кода для создания этого набора данных sklearn со 100 образцами и 3 кластерами:

from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=100, centers=3, random_state=42)

Этот код создает набор данных со 100 образцами и 2 функциями (координаты x и y), с 3 кластерами, центрами которых являются случайные места, и без шума.

Код для загрузки набора данных make_blobs с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 30 марта 2023 г.

15. make_moons и < strong>создать_кружки

Эти функции генерируют наборы данных с нелинейными границами, которые полезны для тестирования алгоритмов нелинейной классификации.

Вот пример кода для загрузки набора данных make_moons:

из sklearn.datasets импортировать make_moons

X, y = make_moons(n_samples=1000, шум=0,2, random_state=42)

Этот код создает набор данных с 1000 выборками и 2 функциями (координаты x и y) с нелинейной границей между двумя классами и с добавлением к данным 0,2 стандартных отклонения гауссовского шума.

Код для загрузки набора данных make_moons с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 30 марта 2023 г.

Вот пример кода для создания и загрузки набора данных make_circles:

from sklearn.datasets import make_circles

X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

Код для загрузки набора данных make_circles с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 30 марта 2023 г.

16. make_sparse_coded_signal

Эта функция создает набор данных разреженного закодированного сигнала, который полезен для тестирования алгоритмов сжатия.

Вот пример кода для загрузки этого набора данных sklearn:

from sklearn.datasets import make_sparse_coded_signal

X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

n Этот код генерирует набор данных разреженного закодированного сигнала со 100 образцами, 50 признаками и 10 атомами.

Код для загрузки набора данных make_sparse_coded_signal с помощью sklearn. Получено с https:/ /scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 30 марта 2023 г.

Распространенные варианты использования наборов данных Sklearn

Предустановленные (игрушечные) наборы данных Sklearn

Iris – этот набор данных sklearn обычно используется для задач классификации и используется в качестве эталонного набора данных для тестирования алгоритмов классификации.

Диабет. Этот набор данных содержит медицинскую информацию о пациентах с диабетом и используется для задач классификации и регрессии в медицинской аналитике.

Цифры – этот набор данных sklearn содержит изображения рукописных цифр. и обычно используется для классификации изображений и задач распознавания образов.

Linnerud – этот набор данных содержит данные о физической подготовке и состоянии здоровья 20 спортсменов. и обычно используется для многомерного регрессионного анализа.

Wine — этот набор данных sklearn содержит химический анализ вин и обычно используется для задачи классификации и кластеризации.

Рак молочной железы, штат Висконсин – это набор данных содержит медицинскую информацию о больных раком молочной железы и обычно используется для задач классификации в аналитике здравоохранения.

Реальные наборы данных Sklearn

жилье в Бостоне – Этот набор данных sklearn содержит информацию о жилье в Бостоне и обычно используется для задач регрессии.

Olivetti Faces – этот набор данных содержит изображения в оттенках серого лиц и обычно используется для классификации изображений и задач распознавания лиц.

California Housing — этот набор данных sklearn содержит информацию о жилье в Калифорнии и обычно используется для задач регрессии.

MNIST. Этот набор данных содержит изображения рукописных цифр и обычно используется для классификации изображений и шаблонов. задачи распознавания.

Fashion-MNIST — этот набор данных sklearn содержит изображения предметов одежды и обычно используется для классификации изображений. и задачи распознавания образов.

Сгенерированные наборы данных Sklearn

make_classification - Этот набор данных представляет собой случайно сгенерированный набор данных для задач бинарной и мультиклассовой классификации.

make_regression – это набор данных — это случайно сгенерированный набор данных для задач регрессии.

make_blobs – это Набор данных sklearn — это случайно сгенерированный набор данных для задач кластеризации.

make_moons и < strong>make_circles — эти наборы данных представляют собой случайно сгенерированные наборы данных для задач классификации и обычно используются для тестирования нелинейных классификаторов.

make_sparse_coded_signal – это набор данных — это случайно сгенерированный набор данных для разреженных задач кодирования при обработке сигналов.

Заключительные мысли

Наборы данных Sklearn предоставляют разработчикам и исследователям удобный способ тестирования и оценки моделей машинного обучения без необходимости вручную собирать и предварительно обрабатывать данные.

Они также доступны для свободного скачивания и использования любым пользователем.


Главное изображение этой статьи было создано с помощью Модель стабильной диффузии искусственного интеллекта HackerNoon с использованием подсказки "набор данных радужной оболочки".

Дополнительные списки наборов данных:

  1. Наборы данных Excel
  2. Наборы данных Keras
  3. Наборы данных R


Оригинал

PREVIOUS ARTICLE
NEXT ARTICLE