14 лучших наборов данных Tableau для практики визуализации данных
13 марта 2023 г.Визуализация данных стала неотъемлемой частью современного делового ландшафта, а Tableau – мощный инструмент для создания впечатляющих визуализаций.
Что такое "Таблица"?
Tableau – это инструмент для анализа и визуализации данных, который позволяет пользователям объединять, визуализировать данные и обмениваться ими простым для понимания и осмысленным способом. Его пользовательский интерфейс обычно считается более интуитивным, с функцией перетаскивания.
Хотя у нас есть альтернативные инструменты визуализации и созданы другие ресурсы с наборами данных, такие как наш Список наборов данных Power BI. В этой статье рассматриваются 14 лучших наборов данных Tableau для практики визуализации данных, которые помогут вам получить ценный опыт в подготовке, анализе и визуализации данных, а также знакомство с богатым набором функций Tableau.
Полный список лучших наборов данных Tableau для практики визуализации данных
- Супермаркет
- Показатели развития Всемирного банка
- Объявления Airbnb
- Задержки и отмены рейсов
- Титаник: машинное обучение на основе стихийных бедствий
- COVID-19
- БД треков Spotify
- 120 лет олимпийской истории: спортсмены и результаты
- Игроки НБА
- 2014 Inc. 5000
- Индекс покемонов
- Статистика Тур де Франс
- Продажи домов в США
- Международный супермаркет
1. Супермаркет
Набор данных Sample Superstore Sales содержит данные о продажах вымышленной розничной компании, включая информацию о продуктах, заказах и клиентах.
Этот набор данных включает следующие переменные:
* Идентификатор заказа — уникальный идентификатор для каждого заказа. * Идентификатор клиента — уникальный идентификатор для каждого клиента. * Дата заказа - Дата размещения заказа. * Дата отправки — дата отправки заказа. * Режим доставки — режим доставки заказа (например, стандартный, в тот же день). * Сегмент — сегмент клиента (например, потребительский, корпоративный, домашний офис). * Регион — регион, в котором находится клиент (например, Западный, Центральный, Восточный). * Категория — категория приобретенного товара (например, «Мебель», «Технологии», «Офисные товары»). * Подкатегория — подкатегория приобретенного продукта (например, стулья, рабочие столы, бумага). * Название продукта - название приобретенного продукта. * Продажи — доход от продаж приобретенного продукта. * Количество - Количество единиц купленного товара. * Скидка - Скидка на приобретенный товар. * Прибыль — прибыль, полученная от приобретенного продукта.
Набор данных можно загрузить с сайта Tableau или Kaggle.
2. Показатели развития Всемирного банка
Этот набор данных содержит информацию о ВВП, ожидаемой продолжительности жизни и уровне грамотности в различных странах мира. Он также включает множество экономических и социальных переменных.
Некоторые переменные, включенные в этот набор данных таблицы:
* Валовой внутренний продукт (ВВП) * Инфляция * Уровень безработицы * Государственный долг * Торговый баланс * Ожидаемая продолжительность жизни * Коэффициент младенческой смертности * Доступ к электричеству * Уровень грамотности * Подписки на мобильную связь
Примечание. Переменные, включенные в набор данных, зависят от анализируемого года и страны.
Вы можете загрузить набор данных непосредственно с веб-сайта или загрузить его с Kaggle.
3. Объявления Airbnb
Этот набор данных представляет собой набор данных о объявлениях Airbnb, включая цену, удобства, тип недвижимости, количество спален и местоположение в Нью-Йорке. Он обычно используется для исследовательского анализа и визуализации данных с упором на распределение объявлений и цен по разным адресам и районам.
Некоторые переменные, включенные в набор данных:
* Id — уникальный идентификатор Airbnb для листинга. * Идентификатор хоста — уникальный идентификатор Airbnb для хоста. * Имя хоста — имя листинга. * Neighborhood Group — группа соседей, например, Манхэттен, Бруклин и т. д. * Подтверждение личности хоста. Показывает, подтверждена ли личность хоста или нет.
Доступ к набору данных можно получить непосредственно с сайта Airbnb или в Tableau, нажав здесь.
4. Задержки и отмены рейсов
Этот набор табличных данных содержит данные о номерах рейсов, вылетах, авиакомпаниях, времени прибытия и причинах любых задержек или отмен. С помощью этого набора данных пользователи Tableau выполняют анализ данных и создают интерактивные информационные панели для выявления наиболее распространенных причин сбоев рейсов путем изучения частоты отмен рейсов авиакомпаниями и задержек рейсов.
Он состоит из следующих переменных:
* Продолжительность полета - продолжительность времени от вылета до прибытия на рейс. * Причина задержки — причина любой задержки рейса. Примеры могут включать погоду, механические проблемы или управление воздушным движением. * Время задержки — количество времени, на которое рейс был задержан. * Cancellation Reason - Причина отмены рейса. Примеры могут включать погодные условия, механические проблемы или недостаточный пассажиропоток. * Дата полета - Дата, когда состоялся полет. * Номер рейса — уникальный идентификатор, присваиваемый авиакомпанией каждому рейсу. * Название авиакомпании — название авиакомпании, выполняющей рейс. * Аэропорт вылета — аэропорт, из которого планируется вылет рейса. * Аэропорт прибытия — аэропорт, в который должен прибыть рейс. * Запланированное время вылета — время вылета рейса согласно первоначальному плану авиакомпании. * Фактическое время вылета — фактическое время вылета рейса, если оно отличается от запланированного времени вылета. * Запланированное время прибытия — время прибытия рейса согласно первоначальному плану авиакомпании. * Фактическое время прибытия — фактическое время прибытия рейса, если оно отличается от запланированного времени прибытия.
Доступ к набору данных можно получить непосредственно в Kaggle, нажав здесьсильный>.
5. Титаник – машинное обучение после катастрофы
Это популярный набор данных с открытым исходным кодом, который предлагает информацию о пассажирах на борту корабля "Титаник", затонувшего 15 апреля 1912 года.
Некоторые переменные, включенные в набор данных:
* PassengerId — уникальный идентификатор для каждого пассажира. * Выжил: показывает, выжил ли пассажир или нет (0 = нет, 1 = да). * Pclass: класс пассажира (1 = 1-й, 2 = 2-й, 3 = 3-й). * Имя - Имя пассажира. * Пол - пол пассажира. * Возраст - Возраст пассажира. * SibSp - Количество братьев и сестер/супругов на борту. * Parch - количество родителей/детей на борту. * Билет - номер билета. * Fare - Стоимость проезда, оплаченная за билет. * Кабина - Номер кабины. * Embarked — порт посадки (C = Шербур, Q = Квинстаун, S = Саутгемптон).
Вы можете скачать набор данных на Kaggle или Таблица.
6. COVID-19
Набор данных COVID-19 – это набор данных, связанных с пандемией COVID-19, отобранных и доступных для анализа с помощью Tableau.
Этот набор данных таблицы включает в себя широкий спектр информации, такой как количество подтвержденных случаев и смертей, данные тестирования, госпитализации и вакцинации для стран и регионов по всему миру. Это также полезно при создании визуализаций и информационных панелей, помогающих отслеживать распространение вируса и его воздействие на население.
Некоторые переменные, включенные в набор данных таблицы:
* Дата: Дата наблюдения. * Страна/регион: название страны или региона, за которым ведется наблюдение. * Провинция/штат: название провинции или штата в стране или регионе, за которым ведется наблюдение. * Широта: широта текущего местоположения. * Долгота: долгота текущего местоположения. * Подтвержденные случаи: общее количество подтвержденных случаев COVID-19 в наблюдаемом в настоящее время месте. * Смерти: общее количество смертей от COVID-19 в наблюдаемом в настоящее время месте. * Выздоровевших: общее количество выздоровевших случаев COVID-19 в наблюдаемом в настоящее время месте. * Активные случаи: общее количество активных случаев COVID-19 в наблюдаемом в настоящее время месте. * Коэффициент заболеваемости: количество подтвержденных случаев на 100 000 населения.
Набор данных можно загрузить на Kaggle. или Европейский центр профилактики и контроля заболеваний (ECDC) веб-сайт .
7. БД треков Spotify
Этот набор данных содержит информацию о песнях, исполнителях и плейлистах с платформы потоковой передачи музыки Spotify. Его можно использовать для изучения моделей популярных исполнителей, потребления музыки, жанров и плейлистов.
Набор данных Spotify Tracks DB можно использовать для создания визуализаций в Tableau, которые могут помочь пользователям понять, как люди потребляют музыку и взаимодействуют с ней на платформе Spotify.
Вы также можете загрузить этот набор данных таблицы на Kaggle. или запросите копию своих данных в Spotify.
8. 120 лет олимпийской истории: спортсмены и результаты а>сильный>сильный>
Этот исторический набор данных содержит информацию о современных Олимпийских играх, которые начались в 1896 году.
Обычно он содержит следующую информацию:
* Спортсмены: имена, национальности, возраст, рост, вес и другие личные данные спортсменов, участвовавших в Олимпийских играх. * Страны: названия стран, принимавших участие в Олимпийских играх, а также их национальные флаги, коды и другая соответствующая информация. * События: подробная информация о различных видах спорта и мероприятиях, проводимых в рамках Олимпийских игр, включая дату, место и количество участников. * Медали: подробная информация о медалях, присужденных спортсменам, победившим на Олимпийских играх, включая тип медали (золотая, серебряная или бронзовая), соревнование, в котором они выиграли, и страну, которую они представляют.
Набор данных также охватывает период от Афин 1896 г. до Рио-де-Жанейро 2016 г., и его можно загрузить по адресу Kaggle.
9. Игроки НБА
Набор данных NBA Players представляет собой набор данных, связанных с Национальной баскетбольной ассоциацией (NBA), профессиональной баскетбольной лигой в Северной Америке. Он содержит различную информацию и статистические данные о командах, игроках, играх и сезонах НБА, в том числе:
* Показатели производительности команды и игрока, такие как очки, подборы, передачи, перехваты и блоки. * Специфичные для игры данные, такие как очки, рекорды побед и поражений и процент попаданий. * Сезонные данные, такие как командные турнирные таблицы, сетки плей-офф и награды.
Вы можете скачать этот набор данных таблицы на Kaggle.
10. The 2014 Inc. 5000 h2>
Набор данных Inc. 5000 за 2014 год – это список 5 000 самых быстрорастущих частных компаний в США. Журнал Inc. публикует этот список каждый год, и в него входят компании из самых разных отраслей и секторов. Рейтинг основан на процентном росте доходов компаний за три года.
Некоторые переменные, включенные в набор данных:
* rank — место компании в списке Inc. 5000. * url - URL сайта компании. * компания - Название компании. * основано - год основания компании. * промышленность - отраслевая категория компании. * выручка - выручка компании в миллионах долларов США. * сотрудников - количество сотрудников в компании. * штат — штат, в котором находится штаб-квартира компании. * city — город, в котором находится штаб-квартира компании.
11. Индекс покемонов
Набор данных Pokemon Index — это набор информации о различных видах покемонов. Он включает такие данные, как имя, тип, способности, характеристики и движения каждого покемона. Набор данных часто используется исследователями, разработчиками и энтузиастами для изучения и анализа различных аспектов франшизы Pokemon, таких как игровая механика, стратегия и популярность.
Примечание. Доступно несколько версий этого набора данных таблицы, в том числе те, которые охватывают разные регионы или поколения игр про покемонов, а также те, которые включают дополнительные данные, такие как изображения спрайтов или эволюционные деревья.
12. Статистика Тур де Франс
Статистика Тур де Франс представляет собой набор исторических данных, связанных с Тур де Франс, ежегодной многоэтапной велогонкой, которая в основном проводится во Франции. Набор данных включает информацию об этапах гонки, маршрутах, гонщиках, командах, классификациях и результатах за каждый год Тур де Франс с момента ее создания в 1903 году и до наших дней.
Некоторые переменные, включенные в этот набор данных таблицы:
* Год: год проведения гонки Тур де Франс. * Дата: дата проведения этапа. * Стартовый город: Город, в котором начался этап. * Город финиша: Город, в котором закончился этап. * Общее расстояние: расстояние, пройденное гонщиками на этапе, обычно измеряется в километрах. * Победитель: имя гонщика, выигравшего этап.
13. Продажи домов в США сильный>сильный>
Набор данных о продажах домов в США, 1963–2016 – – это набор данных о продажах новых домов на одну семью в США с 1963 по 2016 год. Эти данные включают в себя такие сведения, как месяц и год продажи, количество проданных домов, средние и средние цены продажи, а также годовой уровень продаж с учетом сезонных колебаний.
14. Всемирный супермаркет
Набор данных Global Superstore представляет собой симуляцию розничных продаж в магазинах в разных странах. Он включает информацию о клиентах, заказах и продуктах, что особенно полезно для изучения данных о розничных продажах, поскольку предлагает большой и разнообразный набор данных, которые можно использовать для анализа поведения клиентов, эффективности продуктов и моделей продаж.
Он включает следующие переменные:
* Идентификатор заказа — уникальный идентификатор для каждого заказа. * Дата заказа — дата и время размещения заказа. * Дата отправки — дата и время отправки заказа. * Режим доставки — способ доставки заказа (например, стандартный, экспресс). * Идентификатор клиента — уникальный идентификатор для каждого клиента. * Имя клиента - полное имя клиента. * Сегмент — сегмент клиента, такой как Домашний офис или Корпоративный. * Страна — страна, в которой проживает клиент. * Город - Город, в котором проживает клиент. * Штат — штат, в котором проживает клиент. * Почтовый индекс - Почтовый индекс места жительства клиента. * Регион — географический регион, в котором проживает клиент. * Идентификатор продукта — уникальный идентификатор для каждого продукта. * Категория — широкая категория товаров, например «Мебель», «Офисные товары» или «Технологии». * Подкатегория — конкретная подкатегория продукта, например, стулья, бумага или телефоны. * Название продукта - Название продукта. * Продажи — общий доход от продаж продукта. * Количество - количество проданных единиц товара. * Скидка - скидка, применяемая к продукту. * Прибыль — общая прибыль, полученная от продукта.
Распространенные варианты использования наборов данных Tableau
Супермаркет – это набор данных можно использовать для анализа данных о продажах и запасах в розничном магазине, выявления популярных продуктов и прогнозирования спроса на продукты в будущем.
Показатели развития Всемирного банка — этот набор данных может использоваться для анализа тенденций экономического роста, сокращения бедности, здравоохранения, образования и других вопросов развития.
Объявления Airbnb — этот набор данных в виде таблицы можно используется для анализа популярности различных районов, прогнозирования цен и понимания предпочтений пользователей.
Задержки и отмены рейсов – этот набор данных можно использовать для выявления моделей задержек рейсов, прогнозирования задержек и отмен, а также для улучшения работы авиакомпаний.
Titanic — машинное обучение на основе катастроф — этот набор данных в виде таблицы может использоваться для разработки моделей машинного обучения для прогнозирования выживаемости и понимания факторов, влияющих на выживаемость.
COVID-19< /a> – этот набор данных можно использовать для отслеживания пандемии, анализа эффективности мер общественного здравоохранения и прогнозирования будущих тенденций.
БД Spotify Tracks – Этот набор данных можно использовать для анализа музыкальных тенденций, предсказания популярных песен и разработки систем рекомендаций.
120 лет олимпийской истории: спортсмены и Результаты. Этот набор данных в виде таблиц можно использовать для анализа тенденций результатов, выявления успешных спортсменов и стран и прогнозирования количества медалей в будущем.
Игроки НБА – этот набор данных может использоваться для анализа производительности игроков, прогнозирования результатов игр и понимания экономики НБА.
The 2014 Inc. 5000 – Этот набор данных можно использовать для анализа бизнес-тенденций, выявления успешных компаний и отраслей и прогнозирования будущего роста.
Индекс покемонов — этот набор данных таблицы можно использовать для анализа популярности разных покемонов, прогнозирования исходов сражений и разработки рекомендательных систем.
Статистика Тур де Франс – это набор данных можно использовать для анализа тенденций производительности, прогнозирования результатов гонок и понимания экономических аспектов велоспорта.
Продажи домов в США – этот набор данных в виде таблиц можно использовать для анализа тенденций в сфере жилья, прогнозирования будущих цен и изучения рынка недвижимости.
Global Superstore – это набор данных можно использовать для анализа тенденций продаж, определения популярных продуктов и рынков и прогнозирования спроса на продукты в будущем.
Заключительные мысли
Tableau — ценный инструмент для всех, кому необходимо визуализировать и анализировать данные, от бизнес-аналитиков до специалистов по данным.
Общие варианты использования и наборы данных Tableau помогут вам лучше понять роль Tableau в оказании помощи организациям в принятии более взвешенных решений в режиме реального времени.
Они также доступны для свободного скачивания и использования любым пользователем.
Дополнительные списки наборов данных:
Оригинал