16 лучших наборов данных Sklearn для построения моделей машинного обучения
16 апреля 2023 г.Данные поддерживают алгоритмы машинного обучения, а scikit-learn или sklearn предлагает высококачественные наборы данных, которые широко используются исследователями, практиками и энтузиастами. Scikit-learn (sklearn) — это модуль Python для машинного обучения, созданный поверх SciPy. Он уникален благодаря широкому спектру алгоритмов, простоте использования и интеграции с другими библиотеками Python.
Что такое «наборы данных Sklearn»?
Наборы данных Sklearn входят в состав библиотеки scikit-learn (sklearn), поэтому они поставляется с предустановленной библиотекой. Благодаря этому вы можете легко получить доступ к этим наборам данных и загрузить их без необходимости загружать их отдельно.
Чтобы использовать определенный набор данных, вы можете просто импортировать его из модуля sklearn.datasets и вызвать соответствующую функцию для загрузки данных в вашу программу.
Эти наборы данных обычно предварительно обработаны и готовы к использованию, что экономит время и усилия специалистов по работе с данными, которым необходимо экспериментировать с различными моделями и алгоритмами машинного обучения.
Полный список наборов данных в библиотеке Sklearn
- Ирис
- Диабет
- Цифры
- Линнеруд
- Вино
- Рак молочной железы, штат Висконсин
- Жилье в Бостоне
- Лица Оливетти
- Жилье в Калифорнии
- МНИСТ
- Fashion-MNIST
- сделать_классификацию
- сделать_регрессию
- создать_blobs
- make_moons и make_circles
- Сделать_sparse_coded_signal
Предустановленные (игрушечные) наборы данных Sklearn
1. Ирис
Этот набор данных включает измерения длины чашелистиков, ширины чашелистиков, длины и ширины лепестков 150 цветков ириса, принадлежащих к 3 разным видам: setosa, versicolor и virginica. Набор данных ириса состоит из 150 строк и 5 столбцов, которые хранятся в виде фрейма данных, включая столбец для видов каждого цветка.
Переменные включают:
* Sepal.Length — sepal.length представляет длину чашелистика в сантиметрах. * Sepal.Width — ширина чашелистика представляет ширину чашелистика в сантиметрах. * Petal.Length — длина лепестка представляет собой длину лепестка в сантиметрах. * Виды. Переменная вида представляет вид цветка ириса с тремя возможными значениями: setosa, versicolor и virginica.
Вы можете загрузить набор данных iris непосредственно из sklearn, используя функцию load_iris из модуля sklearn.datasets.
# To install sklearn
pip install scikit-learn
# To import sklearn
from sklearn.datasets import load_iris
# Load the iris dataset
iris = load_iris()
# Print the dataset description
print(iris.describe())
Код для загрузки набора данных Iris с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.load_iris.html от 27 марта 2023 г.
2. Диабет а>сильный>сильный>
Этот набор данных sklearn содержит информацию о 442 пациентах с диабетом, включая демографические и клинические данные: n
- Возраст
- Секс
- Индекс массы тела (ИМТ)
- Среднее артериальное давление
- Шесть измерений сыворотки крови (например, общий холестерин, холестерин липопротеинов низкой плотности (ЛПНП), холестерин липопротеинов высокой плотности (ЛПВП)).
- Количественный показатель прогрессирования диабета (HbA1c).
Набор данных Diabetes можно загрузить с помощью функции load_diabetes() из модуля sklearn.datasets.
from sklearn.datasets import load_diabetes
# Load the diabetes dataset
diabetes = load_diabetes()
# Print some information about the dataset
print(diabetes.describe())
Код для загрузки набора данных Diabetes с помощью sklearn. Получено с https://scikit-learn.org/stable/datasets/toy_dataset.html. #diabetes-dataset от 28 марта 2023 г.
3. Цифры
Этот набор данных sklearn представляет собой набор рукописных цифр от 0 до 9, сохраненных в виде изображений в градациях серого. Он содержит в общей сложности 1797 выборок, каждая из которых представляет собой двумерный массив формы (8,8). В наборе данных sklearn digits есть 64 переменные (или функции), соответствующие 64 пикселям в каждом изображении цифр.
Набор данных Digits можно загрузить с помощью функции load_digits() из модуля sklearn.datasets.
from sklearn.datasets import load_digits
# Load the digits dataset
digits = load_digits()
# Print the features and target data
print(digits.data)
print(digits.target)
Код для загрузки набора данных Digits с помощью sklearn. Получено с https://scikit-learn.org /stable/datasets/toy_dataset.html#optical-recognition-of-handwriting-digits-dataset от 29 марта 2023 г.
4. Линнеруд
Набор данных Linnerud содержит физические и физиологические измерения 20 профессиональных спортсменов.
Набор данных включает следующие переменные:
* Три переменные физических упражнений - подтягивания, приседания и прыжки. * Три физиологические измеряемые переменные: пульс, систолическое артериальное давление и диастолическое артериальное давление.
Чтобы загрузить набор данных Linnerud в Python с помощью sklearn:
from sklearn.datasets import load_linnerud
linnerud = load_linnerud()
Код для загрузки набора данных linnerud с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 27 марта 2023 г.
5. Вино
Этот набор данных sklearn содержит результаты химического анализа вин, выращенных в определенной области Италии, для классификации вин по соответствующим сортам.
Некоторые переменные в наборе данных:
* Алкоголь * Яблочная кислота * Пепел * Щелочность золы * Магний * Всего фенолов * Флаваноиды
Набор данных Wine можно загрузить с помощью функции load_wine() из модуля sklearn.datasets.
from sklearn.datasets import load_wine
# Load the Wine dataset
wine_data = load_wine()
# Access the features and targets of the dataset
X = wine_data.data # Features
y = wine_data.target # Targets
# Access the feature names and target names of the dataset
feature_names = wine_data.feature_names
target_names = wine_data.target_names
Код для загрузки набора данных Wine Quality с помощью sklearn. Получено с https://scikit-learn.org/stable/datasets/toy_dataset. .html#wine-recognition-dataset от 28 марта 2023 г.
6. Набор данных по раку молочной железы, штат Висконсин< /сильный>
Этот набор данных sklearn содержит информацию об опухолях рака молочной железы. Первоначально он был создан доктором Уильямом Х. Вольбергом. Набор данных был создан, чтобы помочь исследователям и специалистам по машинному обучению классифицировать опухоли как злокачественные (раковые) или доброкачественные (незлокачественные).
Некоторые переменные, включенные в этот набор данных:
* Идентификационный номер * Диагноз (М = злокачественный, В = доброкачественный). * Радиус (среднее расстояние от центра до точек по периметру). * Текстура (стандартное отклонение значений шкалы серого). * Периметр * Область * Гладкость (локальное изменение длины радиуса). * Компактность (периметр^2/площадь - 1,0). * Вогнутость (выраженность вогнутых участков контура). * Вогнутые точки (количество вогнутых частей контура). * Симметрия * Фрактальная размерность ("приближение береговой линии" - 1).
Вы можете загрузить набор данных по раку груди, штат Висконсин, непосредственно из sklearn, используя функцию load_breast_cancer из модуля sklearn.datasets.
from sklearn.datasets import load_breast_cancer
# Load the Breast Cancer Wisconsin dataset
cancer = load_breast_cancer()
# Print the dataset description
print(cancer.describe())
Код для загрузки набора данных по раку молочной железы в Висконсине с использованием sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.load_breast_cancer.html 28 марта 2023 г.
Реальные наборы данных Sklearn
Реальные наборы данных sklearn основаны на реальных проблемах, которые обычно используются для практики и экспериментов с алгоритмами и методами машинного обучения с использованием библиотеки sklearn в Python.
7. жилье в Бостоне
Набор данных Boston Housing состоит из информации о жилье в районе Бостона, штат Массачусетс. Он содержит около 506 строк и 14 столбцов данных.
Некоторые переменные в наборе данных включают:
* CRIM - Уровень преступности на душу населения по городам. * ЗН - Доля земель под жилую застройку, зонированная под участки площадью более 25 000 кв.м. * INDUS - Доля акров неторгового бизнеса на город. * CHAS - фиктивная переменная реки Чарльз (= 1, если участок граничит с рекой; 0 в противном случае). * NOX - концентрация оксида азота (частей на 10 миллионов). * RM - Среднее количество комнат в жилом доме. * ВОЗРАСТ - Доля жилых единиц, построенных до 1940 года. * DIS - Взвешенные расстояния до пяти центров занятости Бостона. * RAD - Индекс доступности радиальных магистралей. * НАЛОГ - Полная ставка налога на имущество за 10 000 долларов США. * PTTRATIO - Соотношение учеников и учителей по городам. * B - 1000 (Bk - 0,63) ^ 2, где -Bk - доля чернокожих по городам. * LSTAT - Процент более низкого статуса населения. * MEDV – средняя стоимость домов, занимаемых владельцами, в 1000 долларов США.
Вы можете загрузить набор данных Boston Housing непосредственно из scikit-learn, используя функцию load_boston из модуля sklearn.datasets.
from sklearn.datasets import load_boston
# Load the Boston Housing dataset
boston = load_boston()
# Print the dataset description
print(boston.describe())
Код для загрузки набора данных Boston Housing с помощью sklearn. Получено с https://scikit-learn.org/0.15/modules/generated /sklearn.datasets.load_boston.html 29 марта 2023 г.
8. Olivetti Faces
Набор данных Olivetti Faces представляет собой набор изображений человеческих лиц в градациях серого, сделанных в период с апреля 1992 года по апрель 1994 года в AT&T Laboratories. Он содержит 400 изображений 10 человек, каждый из которых имеет 40 изображений, снятых под разными углами и в разных условиях освещения.
Вы можете загрузить набор данных Olivetti Faces в sklearn с помощью функции fetch_olivetti_faces из модуля наборов данных.
from sklearn.datasets import fetch_olivetti_faces
# Load the dataset
faces = fetch_olivetti_faces()
# Get the data and target labels
X = faces.data
y = faces.target
Код для загрузки набора данных Olivetti Faces с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.fetch_olivetti_faces.html от 29 марта 2023 г.
9. Жилье Калифорнии< /h2>
Этот набор данных sklearn содержит информацию о медианной стоимости домов, а также атрибуты переписных участков в Калифорнии. Он также включает 20 640 экземпляров и 8 функций.
Некоторые переменные в наборе данных:
* MedInc — средний доход в блоке. * HouseAge — средний возраст домов в квартале. * AveRooms — среднее количество комнат на домохозяйство. * AveBedrms — среднее количество спален на домохозяйство. * Население - Население блока. * AveOccup — средняя заполняемость домохозяйства. * Широта - Широта блока в десятичных градусах. * Долгота — долгота блока в десятичных градусах.
Вы можете загрузить набор данных California Housing с помощью функции fetch_california_housing из sklearn.
from sklearn.datasets import fetch_california_housing
# Load the dataset
california_housing = fetch_california_housing()
# Get the features and target variable
X = california_housing.data
y = california_housing.target
Код для загрузки набора данных California Housing с помощью sklearn. Получено с https://scikit-learn.org/stable/modules/generated /sklearn.datasets.fetch_california_housing.html 29/3/2023.
10. MNIST
Набор данных MNIST популярен и широко используется в областях машинного обучения и компьютерного зрения. Он состоит из 70 000 изображений рукописных цифр от 0 до 9 в градациях серого, 60 000 изображений для обучения и 10 000 для тестирования. Каждое изображение имеет размер 28 x 28 пикселей и имеет соответствующую метку, обозначающую, какие цифры оно представляет.
Вы можете загрузить набор данных MNIST из sklearn, используя следующий код:
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784')
Примечание. Набор данных MNIST является подмножеством набора данных Digits.
Код для загрузки набора данных MNIST с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 30 марта 2023 г.
11. Fashion-MNIST
Набор данных Fashion MNIST был создан Zalando Research в качестве замены исходного набора данных MNIST. Набор данных Fashion MNIST состоит из 70 000 изображений предметов одежды в оттенках серого (60 000 обучающих и 10 000 тестовых).
Изображения имеют размер 28x28 пикселей и представляют 10 различных классов предметов одежды, включая футболки/топы, брюки, пуловеры, платья, пальто, сандалии, рубашки, кроссовки, сумки и ботильоны. Он похож на исходный набор данных MNIST, но с более сложными задачами классификации из-за большей сложности и разнообразия предметов одежды.
Вы можете загрузить этот набор данных sklearn с помощью функции fetch_openml.
from sklearn.datasets import fetch_openml
fmnist = fetch_openml(name='Fashion-MNIST')
n Код для загрузки набора данных Fashion MNIST с помощью sklearn. Получено с __https://scikit-learn.org/stable/ modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml__ 30 марта 2023 г.
Сгенерированные наборы данных Sklearn
Сгенерированные наборы данных sklearn — это синтетические наборы данных, созданные с использованием библиотеки sklearn в Python. Они используются для тестирования, сравнительного анализа и разработки алгоритмов/моделей машинного обучения.
12. make_classification сильный>
Эта функция генерирует случайный набор данных классификации n классов с указанным количеством выборок, признаков и информативных признаков.
Вот пример кода для создания этого набора данных sklearn со 100 образцами, 5 функциями и 3 классами:
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Этот код генерирует набор данных со 100 образцами и 5 функциями, с 3 классами и 3 информативными функциями. Остальные функции будут избыточными или шумовыми.
Код для загрузки набора данных make_classification с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 30 марта 2023 г.
13. make_regression сильный>
Эта функция создает случайный набор данных регрессии с указанным количеством выборок, признаков и шума.
Вот пример кода для создания этого набора данных sklearn со 100 образцами, 5 функциями и уровнем шума 0,1:
from sklearn.datasets import make_regression
X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Этот код генерирует набор данных со 100 выборками и 5 функциями с уровнем шума 0,1. Целевая переменная y будет непрерывной переменной.
Код для загрузки набора данных make_regression с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 30 марта 2023 г.
14. make_blobs сильный>
Эта функция создает случайный набор данных с указанным количеством выборок и кластеров.
Вот пример кода для создания этого набора данных sklearn со 100 образцами и 3 кластерами:
from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Этот код создает набор данных со 100 образцами и 2 функциями (координаты x и y), с 3 кластерами, центрами которых являются случайные места, и без шума.
Код для загрузки набора данных make_blobs с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 30 марта 2023 г.
15. make_moons и < strong>создать_кружки
Эти функции генерируют наборы данных с нелинейными границами, которые полезны для тестирования алгоритмов нелинейной классификации.
Вот пример кода для загрузки набора данных make_moons:
из sklearn.datasets импортировать make_moons
X, y = make_moons(n_samples=1000, шум=0,2, random_state=42)
Этот код создает набор данных с 1000 выборками и 2 функциями (координаты x и y) с нелинейной границей между двумя классами и с добавлением к данным 0,2 стандартных отклонения гауссовского шума.
Код для загрузки набора данных make_moons с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 30 марта 2023 г.
Вот пример кода для создания и загрузки набора данных make_circles:
from sklearn.datasets import make_circles
X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Код для загрузки набора данных make_circles с помощью sklearn. Получено с https://scikit-learn.org /stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 30 марта 2023 г.
16. make_sparse_coded_signal сильный>
Эта функция создает набор данных разреженного закодированного сигнала, который полезен для тестирования алгоритмов сжатия.
Вот пример кода для загрузки этого набора данных sklearn:
from sklearn.datasets import make_sparse_coded_signal
X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
n Этот код генерирует набор данных разреженного закодированного сигнала со 100 образцами, 50 признаками и 10 атомами.
Код для загрузки набора данных make_sparse_coded_signal с помощью sklearn. Получено с https:/ /scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 30 марта 2023 г.
Распространенные варианты использования наборов данных Sklearn
Предустановленные (игрушечные) наборы данных Sklearn
Iris – этот набор данных sklearn обычно используется для задач классификации и используется в качестве эталонного набора данных для тестирования алгоритмов классификации.
Диабет. Этот набор данных содержит медицинскую информацию о пациентах с диабетом и используется для задач классификации и регрессии в медицинской аналитике.
Цифры – этот набор данных sklearn содержит изображения рукописных цифр. и обычно используется для классификации изображений и задач распознавания образов.
Linnerud – этот набор данных содержит данные о физической подготовке и состоянии здоровья 20 спортсменов. и обычно используется для многомерного регрессионного анализа.
Wine — этот набор данных sklearn содержит химический анализ вин и обычно используется для задачи классификации и кластеризации.
Рак молочной железы, штат Висконсин – это набор данных содержит медицинскую информацию о больных раком молочной железы и обычно используется для задач классификации в аналитике здравоохранения.
Реальные наборы данных Sklearn
жилье в Бостоне – Этот набор данных sklearn содержит информацию о жилье в Бостоне и обычно используется для задач регрессии.
Olivetti Faces – этот набор данных содержит изображения в оттенках серого лиц и обычно используется для классификации изображений и задач распознавания лиц.
California Housing — этот набор данных sklearn содержит информацию о жилье в Калифорнии и обычно используется для задач регрессии.
MNIST. Этот набор данных содержит изображения рукописных цифр и обычно используется для классификации изображений и шаблонов. задачи распознавания.
Fashion-MNIST — этот набор данных sklearn содержит изображения предметов одежды и обычно используется для классификации изображений. и задачи распознавания образов.
Сгенерированные наборы данных Sklearn
make_classification - Этот набор данных представляет собой случайно сгенерированный набор данных для задач бинарной и мультиклассовой классификации.
make_regression – это набор данных — это случайно сгенерированный набор данных для задач регрессии.
make_blobs – это Набор данных sklearn — это случайно сгенерированный набор данных для задач кластеризации.
make_moons и < strong>make_circles — эти наборы данных представляют собой случайно сгенерированные наборы данных для задач классификации и обычно используются для тестирования нелинейных классификаторов.
make_sparse_coded_signal – это набор данных — это случайно сгенерированный набор данных для разреженных задач кодирования при обработке сигналов.
Заключительные мысли
Наборы данных Sklearn предоставляют разработчикам и исследователям удобный способ тестирования и оценки моделей машинного обучения без необходимости вручную собирать и предварительно обрабатывать данные.
Они также доступны для свободного скачивания и использования любым пользователем.
Главное изображение этой статьи было создано с помощью Модель стабильной диффузии искусственного интеллекта HackerNoon с использованием подсказки "набор данных радужной оболочки".
Дополнительные списки наборов данных:
Оригинал