16 лучших наборов данных Sklearn для построения моделей машинного обучения

16 апреля 2023 г.

Данные поддерживают алгоритмы машинного обучения, а scikit-learn или sklearn предлагает высококачественные наборы данных, которые широко используются исследователями, практиками и энтузиастами. Scikit-learn (sklearn) — это модуль Python для машинного обучения, созданный поверх SciPy. Он уникален благодаря широкому спектру алгоритмов, простоте использования и интеграции с другими библиотеками Python.

Что такое «наборы данных Sklearn»?

Наборы данных Sklearn входят в состав библиотеки scikit-learn (sklearn), поэтому они поставляется с предустановленной библиотекой. Благодаря этому вы можете легко получить доступ к этим наборам данных и загрузить их без необходимости загружать их отдельно.

Чтобы использовать определенный набор данных, вы можете просто импортировать его из модуля sklearn.datasets и вызвать соответствующую функцию для загрузки данных в вашу программу.

Эти наборы данных обычно предварительно обработаны и готовы к использованию, что экономит время и усилия специалистов по работе с данными, которым необходимо экспериментировать с различными моделями и алгоритмами машинного обучения.

Полный список наборов данных в библиотеке Sklearn

Ирис
Диабет
Цифры
Линнеруд
Вино
Рак молочной железы, штат Висконсин
Жилье в Бостоне
Лица Оливетти
Жилье в Калифорнии
МНИСТ
Fashion-MNIST
сделать_классификацию
сделать_регрессию
создать_blobs
make_moons и make_circles
Сделать_sparse_coded_signal

Предустановленные (игрушечные) наборы данных Sklearn

1. Ирис

Этот набор данных включает измерения длины чашелистиков, ширины чашелистиков, длины и ширины лепестков 150 цветков ириса, принадлежащих к 3 разным видам: setosa, versicolor и virginica. Набор данных ириса состоит из 150 строк и 5 столбцов, которые хранятся в виде фрейма данных, включая столбец для видов каждого цветка.

Переменные включают:

* Sepal.Length — sepal.length представляет длину чашелистика в сантиметрах. * Sepal.Width — ширина чашелистика представляет ширину чашелистика в сантиметрах. * Petal.Length — длина лепестка представляет собой длину лепестка в сантиметрах. * Виды. Переменная вида представляет вид цветка ириса с тремя возможными значениями: setosa, versicolor и virginica.

Вы можете загрузить набор данных iris непосредственно из sklearn, используя функцию load_iris из модуля sklearn.datasets.

# To install sklearn
pip install scikit-learn

# To import sklearn
from sklearn.datasets import load_iris

# Load the iris dataset
iris = load_iris()

# Print the dataset description
print(iris.describe())

Код для загрузки набора данных Iris с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.load_iris.html от 27 марта 2023 г.

2. Диабет

Этот набор данных sklearn содержит информацию о 442 пациентах с диабетом, включая демографические и клинические данные: n

Возраст

Секс

Индекс массы тела (ИМТ)

Среднее артериальное давление

Шесть измерений сыворотки крови (например, общий холестерин, холестерин липопротеинов низкой плотности (ЛПНП), холестерин липопротеинов высокой плотности (ЛПВП)).

Количественный показатель прогрессирования диабета (HbA1c).

Набор данных Diabetes можно загрузить с помощью функции load_diabetes() из модуля sklearn.datasets.

from sklearn.datasets import load_diabetes

# Load the diabetes dataset
diabetes = load_diabetes()

# Print some information about the dataset
print(diabetes.describe())

Код для загрузки набора данных Diabetes с помощью sklearn. Получено с https://scikit-learn.org/stable/datasets/toy_dataset.html. #diabetes-dataset от 28 марта 2023 г.

3. Цифры

Этот набор данных sklearn представляет собой набор рукописных цифр от 0 до 9, сохраненных в виде изображений в градациях серого. Он содержит в общей сложности 1797 выборок, каждая из которых представляет собой двумерный массив формы (8,8). В наборе данных sklearn digits есть 64 переменные (или функции), соответствующие 64 пикселям в каждом изображении цифр.

Набор данных Digits можно загрузить с помощью функции load_digits() из модуля sklearn.datasets.

from sklearn.datasets import load_digits

# Load the digits dataset
digits = load_digits()

# Print the features and target data
print(digits.data)
print(digits.target)

Код для загрузки набора данных Digits с помощью sklearn. Получено с https://scikit-learn.org /stable/datasets/toy_dataset.html#optical-recognition-of-handwriting-digits-dataset от 29 марта 2023 г.

4. Линнеруд

Набор данных Linnerud содержит физические и физиологические измерения 20 профессиональных спортсменов.

Набор данных включает следующие переменные:

* Три переменные физических упражнений - подтягивания, приседания и прыжки. * Три физиологические измеряемые переменные: пульс, систолическое артериальное давление и диастолическое артериальное давление.

Чтобы загрузить набор данных Linnerud в Python с помощью sklearn:

from sklearn.datasets import load_linnerud
linnerud = load_linnerud()

Код для загрузки набора данных linnerud с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 27 марта 2023 г.

5. Вино

Этот набор данных sklearn содержит результаты химического анализа вин, выращенных в определенной области Италии, для классификации вин по соответствующим сортам.

Некоторые переменные в наборе данных:

* Алкоголь * Яблочная кислота * Пепел * Щелочность золы * Магний * Всего фенолов * Флаваноиды

Набор данных Wine можно загрузить с помощью функции load_wine() из модуля sklearn.datasets.

from sklearn.datasets import load_wine

# Load the Wine dataset
wine_data = load_wine()

# Access the features and targets of the dataset
X = wine_data.data  # Features
y = wine_data.target  # Targets

# Access the feature names and target names of the dataset
feature_names = wine_data.feature_names
target_names = wine_data.target_names

Код для загрузки набора данных Wine Quality с помощью sklearn. Получено с https://scikit-learn.org/stable/datasets/toy_dataset. .html#wine-recognition-dataset от 28 марта 2023 г.

6. Набор данных по раку молочной железы, штат Висконсин< /сильный>

Этот набор данных sklearn содержит информацию об опухолях рака молочной железы. Первоначально он был создан доктором Уильямом Х. Вольбергом. Набор данных был создан, чтобы помочь исследователям и специалистам по машинному обучению классифицировать опухоли как злокачественные (раковые) или доброкачественные (незлокачественные).

Некоторые переменные, включенные в этот набор данных:

* Идентификационный номер * Диагноз (М = злокачественный, В = доброкачественный). * Радиус (среднее расстояние от центра до точек по периметру). * Текстура (стандартное отклонение значений шкалы серого). * Периметр * Область * Гладкость (локальное изменение длины радиуса). * Компактность (периметр^2/площадь - 1,0). * Вогнутость (выраженность вогнутых участков контура). * Вогнутые точки (количество вогнутых частей контура). * Симметрия * Фрактальная размерность ("приближение береговой линии" - 1).

Вы можете загрузить набор данных по раку груди, штат Висконсин, непосредственно из sklearn, используя функцию load_breast_cancer из модуля sklearn.datasets.

from sklearn.datasets import load_breast_cancer

# Load the Breast Cancer Wisconsin dataset
cancer = load_breast_cancer()

# Print the dataset description
print(cancer.describe())

Код для загрузки набора данных по раку молочной железы в Висконсине с использованием sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.load_breast_cancer.html 28 марта 2023 г.

Реальные наборы данных Sklearn

Реальные наборы данных sklearn основаны на реальных проблемах, которые обычно используются для практики и экспериментов с алгоритмами и методами машинного обучения с использованием библиотеки sklearn в Python.

7. жилье в Бостоне

Набор данных Boston Housing состоит из информации о жилье в районе Бостона, штат Массачусетс. Он содержит около 506 строк и 14 столбцов данных.

Некоторые переменные в наборе данных включают:

* CRIM - Уровень преступности на душу населения по городам. * ЗН - Доля земель под жилую застройку, зонированная под участки площадью более 25 000 кв.м. * INDUS - Доля акров неторгового бизнеса на город. * CHAS - фиктивная переменная реки Чарльз (= 1, если участок граничит с рекой; 0 в противном случае). * NOX - концентрация оксида азота (частей на 10 миллионов). * RM - Среднее количество комнат в жилом доме. * ВОЗРАСТ - Доля жилых единиц, построенных до 1940 года. * DIS - Взвешенные расстояния до пяти центров занятости Бостона. * RAD - Индекс доступности радиальных магистралей. * НАЛОГ - Полная ставка налога на имущество за 10 000 долларов США. * PTTRATIO - Соотношение учеников и учителей по городам. * B - 1000 (Bk - 0,63) ^ 2, где -Bk - доля чернокожих по городам. * LSTAT - Процент более низкого статуса населения. * MEDV – средняя стоимость домов, занимаемых владельцами, в 1000 долларов США.

Вы можете загрузить набор данных Boston Housing непосредственно из scikit-learn, используя функцию load_boston из модуля sklearn.datasets.

from sklearn.datasets import load_boston

# Load the Boston Housing dataset
boston = load_boston()

# Print the dataset description
print(boston.describe())

Код для загрузки набора данных Boston Housing с помощью sklearn. Получено с https://scikit-learn.org/0.15/modules/generated /sklearn.datasets.load_boston.html 29 марта 2023 г.

8. Olivetti Faces

Набор данных Olivetti Faces представляет собой набор изображений человеческих лиц в градациях серого, сделанных в период с апреля 1992 года по апрель 1994 года в AT&T Laboratories. Он содержит 400 изображений 10 человек, каждый из которых имеет 40 изображений, снятых под разными углами и в разных условиях освещения.

Вы можете загрузить набор данных Olivetti Faces в sklearn с помощью функции fetch_olivetti_faces из модуля наборов данных.

from sklearn.datasets import fetch_olivetti_faces

# Load the dataset
faces = fetch_olivetti_faces()

# Get the data and target labels
X = faces.data
y = faces.target

Код для загрузки набора данных Olivetti Faces с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.fetch_olivetti_faces.html от 29 марта 2023 г.

9. Жилье Калифорнии< /h2>
Этот набор данных sklearn содержит информацию о медианной стоимости домов, а также атрибуты переписных участков в Калифорнии. Он также включает 20 640 экземпляров и 8 функций.
Некоторые переменные в наборе данных:
* MedInc — средний доход в блоке. * HouseAge — средний возраст домов в квартале. * AveRooms — среднее количество комнат на домохозяйство. * AveBedrms — среднее количество спален на домохозяйство. * Население - Население блока. * AveOccup — средняя заполняемость домохозяйства. * Широта - Широта блока в десятичных градусах. * Долгота — долгота блока в десятичных градусах.
Вы можете загрузить набор данных California Housing с помощью функции fetch_california_housing из sklearn.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
Код для загрузки набора данных California Housing с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.fetch_california_housing.html 29/3/2023.
10. MNIST
Набор данных MNIST популярен и широко используется в областях машинного обучения и компьютерного зрения. Он состоит из 70 000 изображений рукописных цифр от 0 до 9 в градациях серого, 60 000 изображений для обучения и 10 000 для тестирования. Каждое изображение имеет размер 28 x 28 пикселей и имеет соответствующую метку, обозначающую, какие цифры оно представляет.
Вы можете загрузить набор данных MNIST из sklearn, используя следующий код:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Примечание. Набор данных MNIST является подмножеством набора данных Digits.
Код для загрузки набора данных MNIST с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 30 марта 2023 г.

11. Fashion-MNIST
Набор данных Fashion MNIST был создан Zalando Research в качестве замены исходного набора данных MNIST. Набор данных Fashion MNIST состоит из 70 000 изображений предметов одежды в оттенках серого (60 000 обучающих и 10 000 тестовых).
Изображения имеют размер 28x28 пикселей и представляют 10 различных классов предметов одежды, включая футболки/топы, брюки, пуловеры, платья, пальто, сандалии, рубашки, кроссовки, сумки и ботильоны. Он похож на исходный набор данных MNIST, но с более сложными задачами классификации из-за большей сложности и разнообразия предметов одежды.
Вы можете загрузить этот набор данных sklearn с помощью функции fetch_openml.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
n Код для загрузки набора данных Fashion MNIST с помощью sklearn. Получено с __https://scikit-learn.org/stable/ modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml__ 30 марта 2023 г.
Сгенерированные наборы данных Sklearn
Сгенерированные наборы данных sklearn — это синтетические наборы данных, созданные с использованием библиотеки sklearn в Python. Они используются для тестирования, сравнительного анализа и разработки алгоритмов/моделей машинного обучения.
12. make_classification
Эта функция генерирует случайный набор данных классификации n классов с указанным количеством выборок, признаков и информативных признаков.
Вот пример кода для создания этого набора данных sklearn со 100 образцами, 5 функциями и 3 классами:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Этот код генерирует набор данных со 100 образцами и 5 функциями, с 3 классами и 3 информативными функциями. Остальные функции будут избыточными или шумовыми.
Код для загрузки набора данных make_classification с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 30 марта 2023 г.
13. make_regression
Эта функция создает случайный набор данных регрессии с указанным количеством выборок, признаков и шума.
Вот пример кода для создания этого набора данных sklearn со 100 образцами, 5 функциями и уровнем шума 0,1:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Этот код генерирует набор данных со 100 выборками и 5 функциями с уровнем шума 0,1. Целевая переменная y будет непрерывной переменной.
Код для загрузки набора данных make_regression с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 30 марта 2023 г.
14. make_blobs
Эта функция создает случайный набор данных с указанным количеством выборок и кластеров.
Вот пример кода для создания этого набора данных sklearn со 100 образцами и 3 кластерами:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Этот код создает набор данных со 100 образцами и 2 функциями (координаты x и y), с 3 кластерами, центрами которых являются случайные места, и без шума.
Код для загрузки набора данных make_blobs с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 30 марта 2023 г.
15. make_moons и < strong>создать_кружки
Эти функции генерируют наборы данных с нелинейными границами, которые полезны для тестирования алгоритмов нелинейной классификации.
Вот пример кода для загрузки набора данных make_moons:
из sklearn.datasets импортировать make_moons
X, y = make_moons(n_samples=1000, шум=0,2, random_state=42)
Этот код создает набор данных с 1000 выборками и 2 функциями (координаты x и y) с нелинейной границей между двумя классами и с добавлением к данным 0,2 стандартных отклонения гауссовского шума.
Код для загрузки набора данных make_moons с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 30 марта 2023 г.
Вот пример кода для создания и загрузки набора данных make_circles:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Код для загрузки набора данных make_circles с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 30 марта 2023 г.
16. make_sparse_coded_signal
Эта функция создает набор данных разреженного закодированного сигнала, который полезен для тестирования алгоритмов сжатия.
Вот пример кода для загрузки этого набора данных sklearn:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
n Этот код генерирует набор данных разреженного закодированного сигнала со 100 образцами, 50 признаками и 10 атомами.
Код для загрузки набора данных make_sparse_coded_signal с помощью sklearn. Получено с https:/ /scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 30 марта 2023 г.

Распространенные варианты использования наборов данных Sklearn
Предустановленные (игрушечные) наборы данных Sklearn
Iris – этот набор данных sklearn обычно используется для задач классификации и используется в качестве эталонного набора данных для тестирования алгоритмов классификации.
Диабет. Этот набор данных содержит медицинскую информацию о пациентах с диабетом и используется для задач классификации и регрессии в медицинской аналитике.
Цифры – этот набор данных sklearn содержит изображения рукописных цифр. и обычно используется для классификации изображений и задач распознавания образов.
Linnerud – этот набор данных содержит данные о физической подготовке и состоянии здоровья 20 спортсменов. и обычно используется для многомерного регрессионного анализа.
Wine — этот набор данных sklearn содержит химический анализ вин и обычно используется для задачи классификации и кластеризации.
Рак молочной железы, штат Висконсин – это набор данных содержит медицинскую информацию о больных раком молочной железы и обычно используется для задач классификации в аналитике здравоохранения.
Реальные наборы данных Sklearn
жилье в Бостоне – Этот набор данных sklearn содержит информацию о жилье в Бостоне и обычно используется для задач регрессии.
Olivetti Faces – этот набор данных содержит изображения в оттенках серого лиц и обычно используется для классификации изображений и задач распознавания лиц.
California Housing — этот набор данных sklearn содержит информацию о жилье в Калифорнии и обычно используется для задач регрессии.
MNIST. Этот набор данных содержит изображения рукописных цифр и обычно используется для классификации изображений и шаблонов. задачи распознавания.
Fashion-MNIST — этот набор данных sklearn содержит изображения предметов одежды и обычно используется для классификации изображений. и задачи распознавания образов.
Сгенерированные наборы данных Sklearn
make_classification - Этот набор данных представляет собой случайно сгенерированный набор данных для задач бинарной и мультиклассовой классификации.
make_regression – это набор данных — это случайно сгенерированный набор данных для задач регрессии.
make_blobs – это Набор данных sklearn — это случайно сгенерированный набор данных для задач кластеризации.
make_moons и < strong>make_circles — эти наборы данных представляют собой случайно сгенерированные наборы данных для задач классификации и обычно используются для тестирования нелинейных классификаторов.
make_sparse_coded_signal – это набор данных — это случайно сгенерированный набор данных для разреженных задач кодирования при обработке сигналов.
Заключительные мысли
Наборы данных Sklearn предоставляют разработчикам и исследователям удобный способ тестирования и оценки моделей машинного обучения без необходимости вручную собирать и предварительно обрабатывать данные.
Они также доступны для свободного скачивания и использования любым пользователем.
Главное изображение этой статьи было создано с помощью Модель стабильной диффузии искусственного интеллекта HackerNoon с использованием подсказки "набор данных радужной оболочки".
Дополнительные списки наборов данных:

Наборы данных Excel

Наборы данных Keras

Наборы данных R

Оригинал

16 лучших наборов данных Sklearn для построения моделей машинного обучения

Что такое «наборы данных Sklearn»?

Полный список наборов данных в библиотеке Sklearn

Предустановленные (игрушечные) наборы данных Sklearn

1. Ирис

2. Диабет

3. Цифры

4. Линнеруд

5. Вино

6. Набор данных по раку молочной железы, штат Висконсин< /сильный>

Реальные наборы данных Sklearn

7. жилье в Бостоне

8. Olivetti Faces

10. MNIST

11. Fashion-MNIST

Сгенерированные наборы данных Sklearn

12. make_classification

13. make_regression

14. make_blobs

15. make_moons и < strong>создать_кружки

16. make_sparse_coded_signal

Распространенные варианты использования наборов данных Sklearn

Предустановленные (игрушечные) наборы данных Sklearn

Реальные наборы данных Sklearn

Сгенерированные наборы данных Sklearn

Заключительные мысли

🔥 Популярное на этой неделе

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Categories