15 наборов данных Excel для начинающих аналитиков данных

15 наборов данных Excel для начинающих аналитиков данных

20 марта 2023 г.

Excel — незаменимый инструмент для анализа данных. С помощью правильных наборов данных и методов новички могут научиться извлекать ценную информацию и принимать обоснованные решения. Интуитивно понятный интерфейс и мощные функциональные возможности позволяют пользователям выполнять широкий спектр задач: обработку данных, визуализацию и статистический анализ.

Что такое «наборы данных Excel»?

Наборы данных Excel — это данные, систематизированные в электронной таблице Excel. Excel — широко используемое программное обеспечение, которое позволяет создавать, обрабатывать и анализировать данные в структурированном формате. Эти наборы данных могут быть представлены в двух основных форматах: Excel (.xlsx) и CSV (значения, разделённые запятыми). Формат Excel предоставляет расширенные возможности для организации и анализа сложных данных, включая использование формул и визуализаций. CSV предлагает более простой формат, совместимый с широким спектром программ, что облегчает обмен данными.

В этой статье представлен список 15 наборов данных Excel для начинающих аналитиков данных. Они охватывают темы финансового анализа, анализа рынка и анализа временных рядов, позволяя практиковать методы очистки данных, сводные таблицы и диаграммы, а также получать представление о реальных сценариях.

Список наборов данных Excel для начинающих аналитиков данных

  1. Продажи в супермаркетах
  2. Ирис
  3. Титаник
  4. Качество вина
  5. Доход переписи взрослого населения
  6. Жильё в Бостоне
  7. Рак молочной железы, штат Висконсин
  8. Намерение онлайн-покупателей
  9. Банковский маркетинг
  10. Цены на авокадо
  11. 50 самых продаваемых книг на Amazon (2009–2019)
  12. Чемпионат мира по футболу
  13. Открытые данные Airbnb в Нью-Йорке
  14. Доклад о мировом счастье
  15. Цена акций

1. Продажи в супермаркетах

Набор данных содержит информацию о продажах вымышленной розничной компании: продукты, заказы, клиенты. Часто используется для практики анализа данных.

Переменные:
  • Order ID — уникальный идентификатор заказа
  • Customer ID — уникальный идентификатор клиента
  • Order Date — дата размещения заказа
  • Ship Date — дата отправки
  • Ship Mode — режим доставки
  • Segment — сегмент клиента
  • Region — регион
  • Category — категория продукта
  • Sub-Category — подкатегория
  • Product Name — название продукта
  • Sales — доход от продажи
  • Quantity — количество единиц
  • Discount — скидка
  • Profit — прибыль

Продажи в супермаркетах

2. Ирис

Набор данных содержит измерения длины и ширины чашелистиков и лепестков 150 цветков ириса трёх видов: setosa, versicolor и virginica.

Переменные:
  • Sepal.Length — длина чашелистика (см)
  • Sepal.Width — ширина чашелистика (см)
  • Petal.Length — длина лепестка (см)
  • Petal.Width — ширина лепестка (см)
  • Species — вид цветка

Используется для анализа взаимосвязей между характеристиками и классификации видов цветка.

3. Титаник

Содержит информацию о пассажирах затонувшего корабля «Титаник» (15 апреля 1912 года). Полезен для изучения очистки данных, визуализации и прогнозного моделирования.

Переменные:
  • PassengerId — уникальный идентификатор пассажира
  • Survived — выжил ли пассажир (0/1)
  • Pclass — класс пассажира (1/2/3)
  • Name — имя пассажира
  • Sex — пол
  • Age — возраст
  • SibSp — количество братьев/сестер и супругов на борту
  • Parch — количество родителей/детей на борту
  • Ticket — номер билета
  • Fare — стоимость билета
  • Cabin — номер каюты
  • Embarked — порт посадки (C/Q/S)

Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE