15 наборов данных Excel для начинающих аналитиков данных

15 наборов данных Excel для начинающих аналитиков данных

20 марта 2023 г.

Excel – незаменимый инструмент для анализа данных. С помощью правильных наборов данных и методов новички могут научиться извлекать ценную информацию и принимать взвешенные решения. Его интуитивно понятный интерфейс и мощные функциональные возможности позволяют пользователям выполнять широкий спектр процессов, таких как обработка данных, визуализация данных и статистический анализ.

Что такое «наборы данных Excel»?

Наборы данных Excel – это наборы данных, которые хранятся и систематизируются в электронной таблице Excel – широко используемом программном обеспечении, позволяющем пользователям создавать, обрабатывать и анализировать данные в структурированном формате. Эти наборы данных могут поставляться в двух основных форматах: Excel (.xlsx) и значения, разделенные запятыми (CSV). Формат Excel предоставляет более продвинутые функции для организации и анализа сложных данных, включая использование формул и визуализаций, в то время как CSV, с другой стороны, предлагает более простой формат, совместимый с широким спектром программных приложений, что упрощает обмен данными. данные между разными программами.

В этой статье мы составили список из 15 наборов данных Excel для начинающих специалистов по анализу данных. С помощью этих наборов данных Excel, охватывающих такие темы, как финансовый анализ, анализ рынка и анализ временных рядов, новички могут практиковать методы анализа данных, такие как очистка данных, сводные таблицы и диаграммы, получая представление о реальных сценариях.

Список наборов данных Excel для начинающих аналитиков данных

  1. Продажи в супермаркетах
  2. Ирис
  3. Титаник
  4. Качество вина
  5. Доход переписи взрослого населения
  6. Жилье в Бостоне
  7. Набор данных по раку молочной железы, штат Висконсин
  8. Покупательское намерение онлайн-покупателей
  9. Банковский маркетинг
  10. Цены на авокадо
  11. 50 самых продаваемых книг на Amazon, 2009–2019 г.
  12. Чемпионат мира по футболу
  13. Открытые данные Airbnb в Нью-Йорке
  14. Доклад о мировом счастье
  15. Цена акции

1. Продажи в супермаркетах

Данные о продажах в супермаркетах содержат данные о продажах вымышленной розничной компании, включая информацию о продуктах, заказах и клиентах. Он часто используется для практики анализа данных.

Этот набор данных Excel включает следующие переменные:

* Идентификатор заказа — уникальный идентификатор для каждого заказа. * Идентификатор клиента — уникальный идентификатор для каждого клиента. * Дата заказа - Дата размещения заказа. * Дата отправки — дата отправки заказа. * Режим доставки — режим доставки заказа (например, стандартный, в тот же день). * Сегмент — сегмент клиента (например, потребительский, корпоративный, домашний офис). * Регион — регион, в котором находится клиент (например, Западный, Центральный, Восточный). * Категория — категория приобретенного товара (например, «Мебель», «Технологии», «Офисные товары»). * Подкатегория — подкатегория приобретенного продукта (например, стулья, рабочие столы, бумага). * Название продукта - название приобретенного продукта. * Продажи — доход от продаж приобретенного продукта. * Количество - Количество единиц купленного товара. * Скидка - Скидка на приобретенный товар. * Прибыль — прибыль, полученная от приобретенного продукта.

2. Ирис

Этот набор данных включает измерения длины чашелистиков, ширины чашелистиков, длины и ширины лепестков 150 цветков ириса, принадлежащих к 3 разным видам: setosa, versicolor и virginica. Набор данных ириса состоит из 150 строк и 5 столбцов, которые хранятся в виде фрейма данных, включая столбец для видов каждого цветка.

Описание его переменных включает:

* Sepal.Length — sepal.length представляет длину чашелистика в сантиметрах. * Sepal.Width — ширина чашелистика представляет ширину чашелистика в сантиметрах. * Petal.Length — длина лепестка представляет собой длину лепестка в сантиметрах. * Виды. Переменная вида представляет вид цветка ириса с тремя возможными значениями: setosa, versicolor и virginica.

Одним из вариантов использования набора данных Iris в Excel является анализ взаимосвязи между различными функциями цветка Iris и классификация видов цветов на основе значений функций. Это можно сделать с помощью таких методов, как корреляционный анализ, логическая статистика и прогнозное моделирование.

Вы также можете скачать этот набор данных Excel на Kaggle, нажав здесь< /сильный>.

3. Титаник

Этот популярный набор данных с открытым исходным кодом содержит информацию о пассажирах на борту затонувшего 15 апреля 1912 года корабля "Титаник". Его могут использовать новички в области анализа данных, интересующиеся очисткой и предварительной обработкой данных, описательной статистикой, визуализацией данных и прогнозным моделированием. . п

Некоторые переменные, включенные в набор данных:

* PassengerId — уникальный идентификатор для каждого пассажира. * Выжил — показывает, выжил ли пассажир или нет (0 = нет, 1 = да). * Pclass - Класс пассажира (1 = 1-й, 2 = 2-й, 3 = 3-й). * Имя - Имя пассажира. * Пол - Пол пассажира. * Возраст - Возраст пассажира. * SibSp - Количество братьев и сестер/супругов на борту. * Parch - количество родителей/детей на борту. * Билет - номер билета. * Fare - Стоимость проезда, оплаченная за билет. * Кабина - Номер кабины. * Embarked — порт посадки (C = Шербур, Q = Квинстаун, S = Саутгемптон).

4. Качество вина

Набор данных Wine Quality содержит информацию о образцах красного и белого вина. Этот набор данных призван классифицировать качество вина на основе таких химических свойств, как pH, плотность, содержание алкоголя и содержание лимонной кислоты.

Общие переменные, включенные в этот набор данных Excel:

* Фиксированная кислотность - количество фиксированных кислот в вине, выраженное в г/дм^3. * Летучая кислотность - количество летучих кислот в вине, выраженное в г/дм^3. * Лимонная кислота - количество лимонной кислоты в вине, выраженное в г/дм^3. * Остаточный сахар - количество остаточного сахара в вине, выраженное в г/дм^3 * Хлориды - Количество хлоридов в вине, выраженное в г/дм^3. * Свободный диоксид серы - количество свободного диоксида серы в вине, выраженное в мг/дм^3. * Общий диоксид серы - количество общего диоксида серы в вине, выраженное в мг/дм^3. * Плотность - плотность вина, выраженная в г/см^3. * pH - уровень pH вина. * Сульфаты - количество сульфатов в вине, выраженное в г/дм^3. * Алкоголь - содержание алкоголя в вине, выраженное в % об. * Качество — оценка качества вина по шкале от 0 до 10.

5. Доход переписи взрослого населения

Этот набор данных Excel представляет собой набор сведений о людях, проживающих в США, извлеченных из базы данных переписи населения 1994 года. Он содержит различные демографические, социальные и экономические характеристики каждого человека.

Некоторые атрибуты, включенные в этот набор данных:

* возраст * Рабочий класс - Частный, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, без оплаты, никогда не работал. * фнлвгт * Образование - бакалавры, некоторые колледжи, 11-е, высшее образование, проф-школа, асс.-акдм, асс.-вок, 9-е, 7-8-е, 12-е, магистры, 1-4-е, 10-е, докторантура, 5-е-6-е, дошкольное . * Номер образования * Семейное положение - Женат-гражданский-супруг, Разведен, Никогда не состоял в браке, Отдельно, Вдовец, Женат-супруг-отсутствует, Женат-AF-супруга. * профессия - Техподдержка, Ремесленно-ремонтный, Прочее-обслуживание, Продажи, Исполнитель-менеджер, Проф-специальность, Обработчики-уборщики, Машино-осмотр, Адм-канцелярия, Фермерство-рыболовство, Транспорт-переезд, Частное хозяйство -серв, Защитно-серв, Вооруженные Силы. * отношения - Жена, Собственный ребенок, Муж, Не в семье, Другой родственник, Неженатый. *раса - Белая, Азиатско-Пакско-Островитянин, Амерско-Индейско-Эскимосская, Другая, Черная. * пол - мужской или женский.

Атрибут «доход» является целевой переменной, а набор данных очень полезен для начинающих аналитиков данных.

6. жилье в Бостоне

Набор данных Boston Housing состоит из информации о жилье в районе Бостона, штат Массачусетс. Он содержит около 506 строк и 14 столбцов данных.

Некоторые переменные в наборе данных включают:

* CRIM - Уровень преступности на душу населения по городам. * ЗН - Доля земель под жилую застройку, зонированная под участки площадью более 25 000 кв.м. * INDUS - Доля акров неторгового бизнеса на город. * CHAS - фиктивная переменная реки Чарльз (= 1, если участок граничит с рекой; 0 в противном случае). * NOX - концентрация оксида азота (частей на 10 миллионов). * RM - Среднее количество комнат в жилом доме. * ВОЗРАСТ - Доля жилых единиц, построенных до 1940 года. * DIS - Взвешенные расстояния до пяти центров занятости Бостона. * RAD - Индекс доступности радиальных магистралей. * НАЛОГ - Полная ставка налога на имущество за 10 000 долларов США. * PTTRATIO - Соотношение учеников и учителей по городам. * B - 1000 (Bk - 0,63) ^ 2, где -Bk - доля чернокожих по городам. * LSTAT - Процент более низкого статуса населения. * MEDV – средняя стоимость домов, занимаемых владельцами, в 1000 долларов США.

Этот набор данных можно использовать для анализа данных, чтобы анализировать взаимосвязь между различными характеристиками цен на жилье и рынком жилья, выполнять анализ данных и получать ценные сведения.

7. Набор данных по раку молочной железы, штат Висконсин< /сильный>

Этот набор данных Excel состоит из информации об опухолях рака молочной железы и изначально был создан доктором Уильямом Х. Вольбергом. Набор данных был создан, чтобы помочь исследователям и специалистам по машинному обучению классифицировать опухоли как злокачественные (раковые) или доброкачественные (незлокачественные).

Некоторые переменные, включенные в этот набор данных:

* Идентификационный номер * Диагноз (М = злокачественный, В = доброкачественный). * Радиус (среднее расстояние от центра до точек по периметру). * Текстура (стандартное отклонение значений шкалы серого). * Периметр * Область * Гладкость (локальное изменение длины радиуса). * Компактность (периметр^2/площадь - 1,0). * Вогнутость (выраженность вогнутых участков контура). * Вогнутые точки (количество вогнутых частей контура). * Симметрия * Фрактальная размерность ("приближение береговой линии" - 1).

8. Намерение покупателей совершать покупки в Интернете

Набор данных о покупательских намерениях онлайн-покупателей представляет собой набор данных, связанных с моделями покупок и поведением потребителей в контексте онлайн-покупок. Он был создан путем проведения опросов интернет-покупателей и сбора данных из их ответов.

Некоторые из переменных в этом наборе данных включают:

* Административный — количество страниц веб-сайта, посещенных пользователем в административных целях. * Административная_длительность — общее время, проведенное пользователем на административных страницах веб-сайта. * Информационная - количество страниц веб-сайта, посещенных пользователем в ознакомительных целях. * Informational_Duration - Общее время, проведенное пользователем на информационных страницах сайта. * ProductRelation — количество страниц веб-сайта, посещенных пользователем в целях, связанных с продуктом. * ProductRelated_Duration — общее время, проведенное пользователем на страницах веб-сайта, связанных с продуктом. * BounceRates — процент посетителей, которые заходят на сайт и уходят, не просмотрев никаких других страниц. * ExitRates — процент посетителей, покидающих веб-сайт с определенной страницы после ее посещения. * PageValues ​​- Средняя стоимость страниц, просмотренных пользователем до совершения транзакции * SpecialDay — близость визита к особому дню (например, Дню матери, Дню святого Валентина и т. д.)

Этот набор данных Excel используется в исследованиях и аналитике, связанных с электронной коммерцией и онлайн-маркетингом. Это может помочь компаниям понять факторы, влияющие на поведение клиентов, а также полезно для начинающих аналитиков данных.

9. Банковский маркетинг

Этот популярный набор данных предназначен для изучения маркетинговых кампаний португальского банковского учреждения. Он содержит информацию о маркетинговых кампаниях банка, а также демографические и экономические показатели клиентов.

Некоторые переменные, включенные в этот набор данных:

* Возраст - Возраст клиента (числовой) * Работа - Тип работы * Семейный - Семейное положение * Образование - Уровень образования * По умолчанию - Есть кредит по умолчанию? * Баланс - Среднегодовой баланс в евро. * Жилье - Есть жилищный кредит? * Кредит - Есть личный кредит? * Контакт - Контактный тип связи. * День - день месяца, в который обращались. * Выходная переменная указывает, подписался ли клиент на срочный депозит после того, как с ним связался банк.

10. Цены на авокадо

Набор данных Avocado Prices состоит из данных о ценах на авокадо в США. Данные собираются из различных источников, таких как Hass Avocado Board и Министерства сельского хозяйства США (USDA).

Некоторые из переменных в этом наборе данных включают:

* Дата - Дата наблюдения. * AveragePrice — средняя цена одного авокадо. * Общий объем — общее количество проданных авокадо. * Код PLU (Price Look-Up) — код, используемый для идентификации определенного типа авокадо. * Тип - обычный или органический * Регион - город или регион наблюдения.

Его также могут использовать предприятия пищевой промышленности для принятия стратегических решений о покупке и продаже авокадо.

11. Amazon Top 50 самых продаваемых книг 2009 г. – 2019

Этот набор данных Excel содержит данные о 50 самых продаваемых книгах на Amazon за каждый год в период с 2009 по 2019 год.

Набор данных включает следующие переменные:

* Имя - Название книги. * Автор - Имя автора книги. * Пользовательский рейтинг — средний рейтинг книги, предоставленный пользователями Amazon. * Reviews — общее количество отзывов, которые книга получила на Amazon. * Цена - Цена книги в долларах США. * Год - год издания книги. * Жанр — Жанр книги.

Список 50 самых продаваемых книг на Amazon можно использовать для изучения тенденций продаж книг на Amazon за последние десять лет, а также он полезен для новичков в области анализа данных.

12. Чемпионат мира по футболу

Набор данных FIFA World Cup — это набор данных, связанных с чемпионатом мира FIFA, который проводится каждые четыре года. Он содержит информацию о каждом турнире Кубка мира с 1930 по 2014 год.

Некоторые из переменных в этом наборе данных включают:

* Год - год проведения турнира. * Country - Страна проведения турнира. * Победитель - Команда, выигравшая турнир. * Призеры — команда, занявшая второе место. * Третье - команда, занявшая третье место. * Четвертое - команда, занявшая четвертое место. * GoalsScored - Общее количество голов, забитых в турнире. * QualifiedTeams — общее количество команд, прошедших квалификацию на турнир. * Посещаемость — общее количество зрителей, посетивших матчи.

Набор данных можно использовать для анализа тенденций на чемпионатах мира с течением времени, таких как изменения количества участвующих команд или количества забитых голов.

13. Открытые данные Airbnb в Нью-Йорке

Этот набор данных Excel состоит из общедоступной информации о объявлениях и показателях Airbnb в Нью-Йорке. Открытые данные Airbnb по Нью-Йорку за 2019 год включают информацию примерно о 50 000 объявлений Airbnb в городе и публикуются правительством Нью-Йорка для обеспечения прозрачности и понимания влияния аренды на город.

Некоторые переменные в наборе данных включают:

* Id — уникальный идентификатор для каждого объявления Airbnb. * Имя — название листинга Airbnb. * Host_id — уникальный идентификатор хоста Airbnb. * Host_name — имя хоста Airbnb. * Neighbourhood_group — район листинга Airbnb. * Neighbourhood — Район листинга Airbnb. * Широта — широта листинга Airbnb. * Долгота — долгота листинга Airbnb. * Room_type — тип комнаты, доступной для аренды (например, отдельная комната, весь дом/квартира, общая комната). * Цена — стоимость аренды жилья Airbnb за сутки.

14. Отчет о счастье в мире

Этот набор данных включает информацию об уровне счастья в более чем 150 странах, включая экономические, социальные факторы и факторы здоровья, влияющие на счастье. Он будет полезен начинающим специалистам по анализу данных для изучения, визуализации и регрессионного анализа данных.

Некоторые из переменных в этом наборе данных включают:

* Название страны - Название страны. * Год - Год опроса. * Life Ladder — средний балл удовлетворенности жизнью по шкале от 0 до 10. * Логарифм ВВП на душу населения — натуральный логарифм ВВП на душу населения, скорректированный с учетом паритета покупательной способности (ППС) в постоянных международных долларах 2017 года. * Ожидаемая продолжительность здоровой жизни при рождении — ожидаемое количество лет, которые можно прожить в полном здравии, с поправкой на годы, проведенные в плохом состоянии здоровья.

15. Цена акций

Этот набор данных включает ежедневные курсы акций различных компаний, таких как Apple, Google и Amazon. Это полезно для практики анализа временных рядов и прогнозирования будущих цен на акции.

Переменные в этом наборе данных:

* Дата - дата, когда цена акции была зарегистрирована. * Open - Цена открытия акции. * High - Самая высокая цена акции в течение торгового дня. * Low - Самая низкая цена акции в течение торгового дня. * Close - Цена закрытия акции. * Adj Close — скорректированная цена закрытия акции. * Объем — количество акций, проданных в течение дня.

Общие практические вопросы для этих наборов данных Excel

Продажи в супермаркетах

  • Какой общий доход приносит магазин?
  • Какая категория товаров больше всего способствует продажам?
  • Какой была тенденция продаж за последний год?
  • В каком регионе самые высокие продажи, а в каком самые низкие?
  • Какова средняя прибыль магазина?

Ирис

  • Каково распределение каждого вида ириса в наборе данных?
  • Какова корреляция между длиной лепестка и шириной лепестка?
  • Какова средняя длина чашелистиков для каждого вида ириса?
  • У какого вида ириса самая большая площадь лепестков?
  • Сколько наблюдений имеется для каждого вида ириса?

Титаник

  • Какова выживаемость пассажиров?
  • Каков средний возраст пассажиров?
  • Какова доля пассажиров мужского и женского пола?
  • У пассажиров какого класса был самый высокий показатель выживаемости?
  • Как распределяется стоимость проезда, оплачиваемая пассажирами?

Качество вина

  • Какова корреляция между pH и содержанием алкоголя?
  • Какое вино (красное или белое) имеет более высокий средний показатель качества?
  • Какова средняя летучая кислотность для каждого типа вина?
  • Какова доля каждого типа вина в наборе данных?
  • Каково распределение лимонной кислоты для каждого типа вина?

Доход взрослого населения

  • Какова доля людей, зарабатывающих более 50 000 долларов США?
  • Каков средний возраст людей, которые зарабатывают более 50 000 долларов США?
  • Какова связь между возрастом и уровнем образования?
  • Какова доля мужчин и женщин, зарабатывающих более 50 000 долларов?
  • Каково среднее количество часов, отработанных в неделю для людей, которые зарабатывают более 50 000 долл. США?

Жилье в Бостоне

  • Какова корреляция между количеством комнат и средней стоимостью домов, занимаемых владельцами?
  • Какая переменная имеет наибольшую корреляцию со средним значением домов, занимаемых владельцами?
  • Каков средний возраст домов?
  • Каково распределение числа учеников и учителей по городам?
  • В каком городе самая высокая медианная стоимость домов, занимаемых владельцами?

Набор данных по раку молочной железы, штат Висконсин

  • Какова пропорция доброкачественных и злокачественных опухолей?
  • Какова корреляция между радиусом опухоли и периметром?
  • Какова средняя гладкость опухолей?
  • Каково распределение вогнутости опухолей?
  • Какова средняя площадь опухолей?

Намерение совершить покупку в Интернете

  • Какова доля посетителей, совершивших покупку?
  • Каково распределение количества страниц, посещенных посетителями?
  • Каково среднее время, которое посетители проводят на веб-сайте?
  • Какова связь между показателем отказов и доходом?
  • Какой дистрибутив операционной системы используют посетители?

Банковский маркетинг

  • Какова доля людей, подписавшихся на срочный депозит?
  • Какова связь между возрастом и балансом?
  • Каково распределение клиентов по типам работ?
  • Какова средняя продолжительность звонков?
  • Какова доля звонков в месяц?

50 самых продаваемых книг Amazon за 2009–2019 годы

  • Каков средний рейтинг книг?
  • Каково распределение количества отзывов, полученных книгами?
  • Какая книга имеет самую высокую цену?
  • Какова связь между рейтингом и ценой книг?
  • Каково распределение жанров книг?

Чемпионат мира по футболу

  • Каково среднее количество голов, забитых за игру?
  • Какова доля игр, закончившихся вничью?
  • Какая страна выиграла больше всего чемпионатов мира?
  • Какой средний возраст участников турнира?
  • Каково распределение посещаемости каждой игры?

Открытые данные Airbnb в Нью-Йорке

  • Какова средняя цена объявлений?
  • Каково распределение типов номеров, доступных для объявлений?
  • В каком районе больше всего объявлений?
  • Какова корреляция между количеством отзывов и ценой объявлений?
  • Как распределяются правила отмены для объявлений?

Доклад о мировом счастье

  • Каково распределение показателей счастья для каждой страны?
  • У какой страны самый высокий показатель счастья?
  • Какова корреляция между ВВП на душу населения и показателем счастья?
  • Каково распределение факторов, способствующих счастью?
  • В каком регионе мира самый высокий средний показатель счастья?

Цена акций

  • Какова средняя дневная доходность акций?
  • Каково распределение дневного объема торгов? Цены на авокадо
  • Какова средняя цена авокадо?
  • Каково распределение средней цены по регионам?
  • В каком регионе самая высокая и самая низкая средняя цена?
  • Какова корреляция между общим объемом и средней ценой?
  • Каково распределение общего объема по годам?

Заключительные мысли

Excel предлагает широкий спектр инструментов для новичков в области анализа данных, и вы можете улучшить свои навыки, используя наборы данных Excel, перечисленные в этой статье.

Вы также можете создавать различные типы визуализаций, такие как линейные диаграммы, гистограммы, точечные диаграммы, гистограммы и круговые диаграммы, чтобы ответить на поставленные выше вопросы.


Главное изображение этой статьи было создано с помощью HackerNoon AI Stable Diffusion. с помощью подсказки "Наборы данных Excel".

Дополнительные списки наборов данных:

  1. Наборы данных Tableau
  2. Наборы данных Power BI
  3. Наборы данных Keras


Оригинал