15 наборов данных Excel для начинающих аналитиков данных
20 марта 2023 г.Excel — незаменимый инструмент для анализа данных. С помощью правильных наборов данных и методов новички могут научиться извлекать ценную информацию и принимать обоснованные решения. Интуитивно понятный интерфейс и мощные функциональные возможности позволяют пользователям выполнять широкий спектр задач: обработку данных, визуализацию и статистический анализ.
Что такое «наборы данных Excel»?
Наборы данных Excel — это данные, систематизированные в электронной таблице Excel. Excel — широко используемое программное обеспечение, которое позволяет создавать, обрабатывать и анализировать данные в структурированном формате. Эти наборы данных могут быть представлены в двух основных форматах: Excel (.xlsx) и CSV (значения, разделённые запятыми). Формат Excel предоставляет расширенные возможности для организации и анализа сложных данных, включая использование формул и визуализаций. CSV предлагает более простой формат, совместимый с широким спектром программ, что облегчает обмен данными.
В этой статье представлен список 15 наборов данных Excel для начинающих аналитиков данных. Они охватывают темы финансового анализа, анализа рынка и анализа временных рядов, позволяя практиковать методы очистки данных, сводные таблицы и диаграммы, а также получать представление о реальных сценариях.
Список наборов данных Excel для начинающих аналитиков данных
- Продажи в супермаркетах
- Ирис
- Титаник
- Качество вина
- Доход переписи взрослого населения
- Жильё в Бостоне
- Рак молочной железы, штат Висконсин
- Намерение онлайн-покупателей
- Банковский маркетинг
- Цены на авокадо
- 50 самых продаваемых книг на Amazon (2009–2019)
- Чемпионат мира по футболу
- Открытые данные Airbnb в Нью-Йорке
- Доклад о мировом счастье
- Цена акций
1. Продажи в супермаркетах
Набор данных содержит информацию о продажах вымышленной розничной компании: продукты, заказы, клиенты. Часто используется для практики анализа данных.
Переменные:- Order ID — уникальный идентификатор заказа
- Customer ID — уникальный идентификатор клиента
- Order Date — дата размещения заказа
- Ship Date — дата отправки
- Ship Mode — режим доставки
- Segment — сегмент клиента
- Region — регион
- Category — категория продукта
- Sub-Category — подкатегория
- Product Name — название продукта
- Sales — доход от продажи
- Quantity — количество единиц
- Discount — скидка
- Profit — прибыль

2. Ирис
Набор данных содержит измерения длины и ширины чашелистиков и лепестков 150 цветков ириса трёх видов: setosa, versicolor и virginica.
Переменные:- Sepal.Length — длина чашелистика (см)
- Sepal.Width — ширина чашелистика (см)
- Petal.Length — длина лепестка (см)
- Petal.Width — ширина лепестка (см)
- Species — вид цветка
Используется для анализа взаимосвязей между характеристиками и классификации видов цветка.
3. Титаник
Содержит информацию о пассажирах затонувшего корабля «Титаник» (15 апреля 1912 года). Полезен для изучения очистки данных, визуализации и прогнозного моделирования.
Переменные:- PassengerId — уникальный идентификатор пассажира
- Survived — выжил ли пассажир (0/1)
- Pclass — класс пассажира (1/2/3)
- Name — имя пассажира
- Sex — пол
- Age — возраст
- SibSp — количество братьев/сестер и супругов на борту
- Parch — количество родителей/детей на борту
- Ticket — номер билета
- Fare — стоимость билета
- Cabin — номер каюты
- Embarked — порт посадки (C/Q/S)
Оригинал