14 лучших наборов данных Tableau для практики визуализации данных

14 лучших наборов данных Tableau для практики визуализации данных

13 марта 2023 г.

Визуализация данных стала неотъемлемой частью современного делового ландшафта, а Tableau – мощный инструмент для создания впечатляющих визуализаций.

Что такое "Таблица"?

Tableau – это инструмент для анализа и визуализации данных, который позволяет пользователям объединять, визуализировать данные и обмениваться ими простым для понимания и осмысленным способом. Его пользовательский интерфейс обычно считается более интуитивным, с функцией перетаскивания.

Хотя у нас есть альтернативные инструменты визуализации и созданы другие ресурсы с наборами данных, такие как наш Список наборов данных Power BI. В этой статье рассматриваются 14 лучших наборов данных Tableau для практики визуализации данных, которые помогут вам получить ценный опыт в подготовке, анализе и визуализации данных, а также знакомство с богатым набором функций Tableau.

Полный список лучших наборов данных Tableau для практики визуализации данных

  1. Супермаркет
  2. Показатели развития Всемирного банка
  3. Объявления Airbnb
  4. Задержки и отмены рейсов
  5. Титаник: машинное обучение на основе стихийных бедствий
  6. COVID-19
  7. БД треков Spotify
  8. 120 лет олимпийской истории: спортсмены и результаты
  9. Игроки НБА
  10. 2014 Inc. 5000
  11. Индекс покемонов
  12. Статистика Тур де Франс
  13. Продажи домов в США
  14. Международный супермаркет

1. Супермаркет

Набор данных Sample Superstore Sales содержит данные о продажах вымышленной розничной компании, включая информацию о продуктах, заказах и клиентах.

Этот набор данных включает следующие переменные:

* Идентификатор заказа — уникальный идентификатор для каждого заказа. * Идентификатор клиента — уникальный идентификатор для каждого клиента. * Дата заказа - Дата размещения заказа. * Дата отправки — дата отправки заказа. * Режим доставки — режим доставки заказа (например, стандартный, в тот же день). * Сегмент — сегмент клиента (например, потребительский, корпоративный, домашний офис). * Регион — регион, в котором находится клиент (например, Западный, Центральный, Восточный). * Категория — категория приобретенного товара (например, «Мебель», «Технологии», «Офисные товары»). * Подкатегория — подкатегория приобретенного продукта (например, стулья, рабочие столы, бумага). * Название продукта - название приобретенного продукта. * Продажи — доход от продаж приобретенного продукта. * Количество - Количество единиц купленного товара. * Скидка - Скидка на приобретенный товар. * Прибыль — прибыль, полученная от приобретенного продукта.

Набор данных можно загрузить с сайта Tableau или Kaggle.

2. Показатели развития Всемирного банка

Этот набор данных содержит информацию о ВВП, ожидаемой продолжительности жизни и уровне грамотности в различных странах мира. Он также включает множество экономических и социальных переменных.

Некоторые переменные, включенные в этот набор данных таблицы:

* Валовой внутренний продукт (ВВП) * Инфляция * Уровень безработицы * Государственный долг * Торговый баланс * Ожидаемая продолжительность жизни * Коэффициент младенческой смертности * Доступ к электричеству * Уровень грамотности * Подписки на мобильную связь

Примечание. Переменные, включенные в набор данных, зависят от анализируемого года и страны.

Вы можете загрузить набор данных непосредственно с веб-сайта или загрузить его с Kaggle.

3. Объявления Airbnb

Этот набор данных представляет собой набор данных о объявлениях Airbnb, включая цену, удобства, тип недвижимости, количество спален и местоположение в Нью-Йорке. Он обычно используется для исследовательского анализа и визуализации данных с упором на распределение объявлений и цен по разным адресам и районам.

Некоторые переменные, включенные в набор данных:

* Id — уникальный идентификатор Airbnb для листинга. * Идентификатор хоста — уникальный идентификатор Airbnb для хоста. * Имя хоста — имя листинга. * Neighborhood Group — группа соседей, например, Манхэттен, Бруклин и т. д. * Подтверждение личности хоста. Показывает, подтверждена ли личность хоста или нет.

Доступ к набору данных можно получить непосредственно с сайта Airbnb или в Tableau, нажав здесь.

Sample data from listings in the Airbnb dataset

4. Задержки и отмены рейсов

Этот набор табличных данных содержит данные о номерах рейсов, вылетах, авиакомпаниях, времени прибытия и причинах любых задержек или отмен. С помощью этого набора данных пользователи Tableau выполняют анализ данных и создают интерактивные информационные панели для выявления наиболее распространенных причин сбоев рейсов путем изучения частоты отмен рейсов авиакомпаниями и задержек рейсов.

Он состоит из следующих переменных:

* Продолжительность полета - продолжительность времени от вылета до прибытия на рейс. * Причина задержки — причина любой задержки рейса. Примеры могут включать погоду, механические проблемы или управление воздушным движением. * Время задержки — количество времени, на которое рейс был задержан. * Cancellation Reason - Причина отмены рейса. Примеры могут включать погодные условия, механические проблемы или недостаточный пассажиропоток. * Дата полета - Дата, когда состоялся полет. * Номер рейса — уникальный идентификатор, присваиваемый авиакомпанией каждому рейсу. * Название авиакомпании — название авиакомпании, выполняющей рейс. * Аэропорт вылета — аэропорт, из которого планируется вылет рейса. * Аэропорт прибытия — аэропорт, в который должен прибыть рейс. * Запланированное время вылета — время вылета рейса согласно первоначальному плану авиакомпании. * Фактическое время вылета — фактическое время вылета рейса, если оно отличается от запланированного времени вылета. * Запланированное время прибытия — время прибытия рейса согласно первоначальному плану авиакомпании. * Фактическое время прибытия — фактическое время прибытия рейса, если оно отличается от запланированного времени прибытия.

Доступ к набору данных можно получить непосредственно в Kaggle, нажав здесь.

5. Титаник – машинное обучение после катастрофы

Это популярный набор данных с открытым исходным кодом, который предлагает информацию о пассажирах на борту корабля "Титаник", затонувшего 15 апреля 1912 года.

Некоторые переменные, включенные в набор данных:

* PassengerId — уникальный идентификатор для каждого пассажира. * Выжил: показывает, выжил ли пассажир или нет (0 = нет, 1 = да). * Pclass: класс пассажира (1 = 1-й, 2 = 2-й, 3 = 3-й). * Имя - Имя пассажира. * Пол - пол пассажира. * Возраст - Возраст пассажира. * SibSp - Количество братьев и сестер/супругов на борту. * Parch - количество родителей/детей на борту. * Билет - номер билета. * Fare - Стоимость проезда, оплаченная за билет. * Кабина - Номер кабины. * Embarked — порт посадки (C = Шербур, Q = Квинстаун, S = Саутгемптон).

Вы можете скачать набор данных на Kaggle или Таблица.

6. COVID-19

Набор данных COVID-19 – это набор данных, связанных с пандемией COVID-19, отобранных и доступных для анализа с помощью Tableau.

Этот набор данных таблицы включает в себя широкий спектр информации, такой как количество подтвержденных случаев и смертей, данные тестирования, госпитализации и вакцинации для стран и регионов по всему миру. Это также полезно при создании визуализаций и информационных панелей, помогающих отслеживать распространение вируса и его воздействие на население.

Некоторые переменные, включенные в набор данных таблицы:

* Дата: Дата наблюдения. * Страна/регион: название страны или региона, за которым ведется наблюдение. * Провинция/штат: название провинции или штата в стране или регионе, за которым ведется наблюдение. * Широта: широта текущего местоположения. * Долгота: долгота текущего местоположения. * Подтвержденные случаи: общее количество подтвержденных случаев COVID-19 в наблюдаемом в настоящее время месте. * Смерти: общее количество смертей от COVID-19 в наблюдаемом в настоящее время месте. * Выздоровевших: общее количество выздоровевших случаев COVID-19 в наблюдаемом в настоящее время месте. * Активные случаи: общее количество активных случаев COVID-19 в наблюдаемом в настоящее время месте. * Коэффициент заболеваемости: количество подтвержденных случаев на 100 000 населения.

Набор данных можно загрузить на Kaggle. или Европейский центр профилактики и контроля заболеваний (ECDC) веб-сайт .

7. БД треков Spotify

Этот набор данных содержит информацию о песнях, исполнителях и плейлистах с платформы потоковой передачи музыки Spotify. Его можно использовать для изучения моделей популярных исполнителей, потребления музыки, жанров и плейлистов.

Набор данных Spotify Tracks DB можно использовать для создания визуализаций в Tableau, которые могут помочь пользователям понять, как люди потребляют музыку и взаимодействуют с ней на платформе Spotify.

Вы также можете загрузить этот набор данных таблицы на Kaggle. или запросите копию своих данных в Spotify.

How to visualize Spotify music trends in Tableau

8. 120 лет олимпийской истории: спортсмены и результаты

Этот исторический набор данных содержит информацию о современных Олимпийских играх, которые начались в 1896 году.

Обычно он содержит следующую информацию:

* Спортсмены: имена, национальности, возраст, рост, вес и другие личные данные спортсменов, участвовавших в Олимпийских играх. * Страны: названия стран, принимавших участие в Олимпийских играх, а также их национальные флаги, коды и другая соответствующая информация. * События: подробная информация о различных видах спорта и мероприятиях, проводимых в рамках Олимпийских игр, включая дату, место и количество участников. * Медали: подробная информация о медалях, присужденных спортсменам, победившим на Олимпийских играх, включая тип медали (золотая, серебряная или бронзовая), соревнование, в котором они выиграли, и страну, которую они представляют.

Набор данных также охватывает период от Афин 1896 г. до Рио-де-Жанейро 2016 г., и его можно загрузить по адресу Kaggle.

9. Игроки НБА

Набор данных NBA Players представляет собой набор данных, связанных с Национальной баскетбольной ассоциацией (NBA), профессиональной баскетбольной лигой в Северной Америке. Он содержит различную информацию и статистические данные о командах, игроках, играх и сезонах НБА, в том числе:

* Показатели производительности команды и игрока, такие как очки, подборы, передачи, перехваты и блоки. * Специфичные для игры данные, такие как очки, рекорды побед и поражений и процент попаданий. * Сезонные данные, такие как командные турнирные таблицы, сетки плей-офф и награды.

Вы можете скачать этот набор данных таблицы на Kaggle.

10. The 2014 Inc. 5000

Набор данных Inc. 5000 за 2014 год – это список 5 000 самых быстрорастущих частных компаний в США. Журнал Inc. публикует этот список каждый год, и в него входят компании из самых разных отраслей и секторов. Рейтинг основан на процентном росте доходов компаний за три года.

Некоторые переменные, включенные в набор данных:

* rank — место компании в списке Inc. 5000. * url - URL сайта компании. * компания - Название компании. * основано - год основания компании. * промышленность - отраслевая категория компании. * выручка - выручка компании в миллионах долларов США. * сотрудников - количество сотрудников в компании. * штат — штат, в котором находится штаб-квартира компании. * city — город, в котором находится штаб-квартира компании.

11. Индекс покемонов

Набор данных Pokemon Index — это набор информации о различных видах покемонов. Он включает такие данные, как имя, тип, способности, характеристики и движения каждого покемона. Набор данных часто используется исследователями, разработчиками и энтузиастами для изучения и анализа различных аспектов франшизы Pokemon, таких как игровая механика, стратегия и популярность.

Примечание. Доступно несколько версий этого набора данных таблицы, в том числе те, которые охватывают разные регионы или поколения игр про покемонов, а также те, которые включают дополнительные данные, такие как изображения спрайтов или эволюционные деревья.

12. Статистика Тур де Франс

Статистика Тур де Франс представляет собой набор исторических данных, связанных с Тур де Франс, ежегодной многоэтапной велогонкой, которая в основном проводится во Франции. Набор данных включает информацию об этапах гонки, маршрутах, гонщиках, командах, классификациях и результатах за каждый год Тур де Франс с момента ее создания в 1903 году и до наших дней.

Некоторые переменные, включенные в этот набор данных таблицы:

* Год: год проведения гонки Тур де Франс. * Дата: дата проведения этапа. * Стартовый город: Город, в котором начался этап. * Город финиша: Город, в котором закончился этап. * Общее расстояние: расстояние, пройденное гонщиками на этапе, обычно измеряется в километрах. * Победитель: имя гонщика, выигравшего этап.

13. Продажи домов в США

Набор данных о продажах домов в США, 1963–2016 – – это набор данных о продажах новых домов на одну семью в США с 1963 по 2016 год. Эти данные включают в себя такие сведения, как месяц и год продажи, количество проданных домов, средние и средние цены продажи, а также годовой уровень продаж с учетом сезонных колебаний.

14. Всемирный супермаркет

Набор данных Global Superstore представляет собой симуляцию розничных продаж в магазинах в разных странах. Он включает информацию о клиентах, заказах и продуктах, что особенно полезно для изучения данных о розничных продажах, поскольку предлагает большой и разнообразный набор данных, которые можно использовать для анализа поведения клиентов, эффективности продуктов и моделей продаж.

Он включает следующие переменные:

* Идентификатор заказа — уникальный идентификатор для каждого заказа. * Дата заказа — дата и время размещения заказа. * Дата отправки — дата и время отправки заказа. * Режим доставки — способ доставки заказа (например, стандартный, экспресс). * Идентификатор клиента — уникальный идентификатор для каждого клиента. * Имя клиента - полное имя клиента. * Сегмент — сегмент клиента, такой как Домашний офис или Корпоративный. * Страна — страна, в которой проживает клиент. * Город - Город, в котором проживает клиент. * Штат — штат, в котором проживает клиент. * Почтовый индекс - Почтовый индекс места жительства клиента. * Регион — географический регион, в котором проживает клиент. * Идентификатор продукта — уникальный идентификатор для каждого продукта. * Категория — широкая категория товаров, например «Мебель», «Офисные товары» или «Технологии». * Подкатегория — конкретная подкатегория продукта, например, стулья, бумага или телефоны. * Название продукта - Название продукта. * Продажи — общий доход от продаж продукта. * Количество - количество проданных единиц товара. * Скидка - скидка, применяемая к продукту. * Прибыль — общая прибыль, полученная от продукта.

Распространенные варианты использования наборов данных Tableau

Супермаркет – это набор данных можно использовать для анализа данных о продажах и запасах в розничном магазине, выявления популярных продуктов и прогнозирования спроса на продукты в будущем.

Показатели развития Всемирного банка — этот набор данных может использоваться для анализа тенденций экономического роста, сокращения бедности, здравоохранения, образования и других вопросов развития.

Объявления Airbnb — этот набор данных в виде таблицы можно используется для анализа популярности различных районов, прогнозирования цен и понимания предпочтений пользователей.

Задержки и отмены рейсов  – этот набор данных можно использовать для выявления моделей задержек рейсов, прогнозирования задержек и отмен, а также для улучшения работы авиакомпаний.

Titanic — машинное обучение на основе катастроф — этот набор данных в виде таблицы может использоваться для разработки моделей машинного обучения для прогнозирования выживаемости и понимания факторов, влияющих на выживаемость.

COVID-19< /a> – этот набор данных можно использовать для отслеживания пандемии, анализа эффективности мер общественного здравоохранения и прогнозирования будущих тенденций.

COVID-19 CASES - Starter Dashboard

БД Spotify Tracks – Этот набор данных можно использовать для анализа музыкальных тенденций, предсказания популярных песен и разработки систем рекомендаций.

120 лет олимпийской истории: спортсмены и Результаты. Этот набор данных в виде таблиц можно использовать для анализа тенденций результатов, выявления успешных спортсменов и стран и прогнозирования количества медалей в будущем.

Игроки НБА – этот набор данных может использоваться для анализа производительности игроков, прогнозирования результатов игр и понимания экономики НБА.

The 2014 Inc. 5000 – Этот набор данных можно использовать для анализа бизнес-тенденций, выявления успешных компаний и отраслей и прогнозирования будущего роста.

Индекс покемонов — этот набор данных таблицы можно использовать для анализа популярности разных покемонов, прогнозирования исходов сражений и разработки рекомендательных систем.

Статистика Тур де Франс – это набор данных можно использовать для анализа тенденций производительности, прогнозирования результатов гонок и понимания экономических аспектов велоспорта.

Продажи домов в США – этот набор данных в виде таблиц можно использовать для анализа тенденций в сфере жилья, прогнозирования будущих цен и изучения рынка недвижимости.

Global Superstore – это набор данных можно использовать для анализа тенденций продаж, определения популярных продуктов и рынков и прогнозирования спроса на продукты в будущем.

Заключительные мысли

Tableau — ценный инструмент для всех, кому необходимо визуализировать и анализировать данные, от бизнес-аналитиков до специалистов по данным.

Общие варианты использования и наборы данных Tableau помогут вам лучше понять роль Tableau в оказании помощи организациям в принятии более взвешенных решений в режиме реального времени.

Они также доступны для свободного скачивания и использования любым пользователем.


Дополнительные списки наборов данных:

  1. Объем наборов данных
  2. Наборы данных PyTorch
  3. Наборы данных Power BI


Оригинал