10 лучших наборов данных для анализа временных рядов

10 лучших наборов данных для анализа временных рядов

25 января 2023 г.

Данные временных рядов, по сути, представляют собой набор точек данных, организованных во времени. Время часто является независимой переменной, и цель обычно состоит в том, чтобы прогнозировать будущее во временном ряду.

В этой статье мы рассмотрим 10 лучших наборов данных для анализа временных рядов, чтобы понять, как определенный показатель меняется со временем, и спрогнозировать будущие значения.

Список лучших наборов данных временных рядов

  1. Набор данных соревнований M4. Этот набор данных представляет собой набор более 100 000 временных рядов годовых, квартальных, месячных и других (еженедельных, ежедневных и ежечасных) данных, разделенных на обучающие и тестовые наборы данных, которые используются в конкурсе прогнозистов M4, который является ежегодным соревнованием, организованным Международным институтом прогнозистов (IIF). ). Конкурс направлен на оценку и сравнение различных методов и моделей прогнозирования на различных временных рядах.

    2. Numenta Anomaly Benchmark (NAB). Набор данных NAB представляет собой набор реальных и искусственных данных временных рядов и используется для оценки алгоритмов обнаружения аномалий. Он содержит разнообразные данные временных рядов, которые охватывают различные области, такие как финансы, транспорт и мониторинг окружающей среды, что делает его подходящим эталонным набором данных для оценки алгоритмов обнаружения аномалий.

    3. Международная база данных Бюро переписи населения США (IDB) – The IDB набор данных включает в себя различные демографические и экономические данные временных рядов для стран по всему миру. Набор данных включает в себя различные данные временных рядов по странам по всему миру, такие как население, рождаемость, смертность, миграция и экономические показатели, собранные и предоставленные Бюро переписи населения США, которое является независимым агентством федерального правительства США.< /p>

    4. Набор данных Google Trends. Этот набор данных содержит относительную популярность определенного поискового запроса с течением времени. , по данным Google. Он также основан на количестве поисковых запросов в Google по определенному термину, нормализованному для отражения популярности термина по отношению к общему количеству поисковых запросов в Google.

    5. Набор данных такси Нью-Йорка – Этот набор данных включает временные ряды данных о поездках на такси в Нью-Йорке, включая время посадки и высадки, места, цены на транспорт, расстояние до поездки, стоимость проезда и количество пассажиров.

    6. Пекинский многосайтовый набор данных о качестве воздуха – этот набор данных включает ежечасные измерения качества воздуха в различных точках Пекина.

    7. Набор данных временных рядов веб-трафика Википедии -Этот набор данных включает временные ряды данных о трафике различных статей Википедии. Набор данных предоставляет информацию о количестве просмотров и посетителей каждой статьи Википедии, а также о количестве правок и соавторов.

    8. Временные ряды глобальных аномалий температуры суши и океана – этот набор данных включает данные временных рядов. от температуры поверхности суши и океана. Данные представлены в виде температурных аномалий, представляющих собой разницу между температурой данного года и средней температурой за отчетный период.

    9. Ежемесячный набор данных о солнечных пятнах. Этот набор данных включает ежемесячное количество солнечных пятен с 1749 года по 2018 (269 лет). Солнечные пятна — это более холодные участки поверхности Солнца, созданные огромными изменениями магнитного поля Солнца. Эти колебания магнитного поля Солнца могут вызывать солнечные вспышки и выбросы корональной массы, которые могут оказывать существенное влияние на атмосферу и климат Земли.

    10. Набор данных для определения уровня озона. Этот набор данных включает два наборы данных об уровне приземного озона, используемые для определения уровня озона в атмосфере. Он был собран в районах Хьюстона, Галвестона и Бразории в период с 1998 по 2004 год и включает ежечасные измерения уровней озона, где один представляет собой восьмичасовой набор пиковых значений (eighthr.data), а другой - одночасовой набор пиковых значений. (onehr.data).

Распространенные варианты использования наборов данных временных рядов

Анализ и прогнозирование временных рядов

  • Набор данных соревнований M4. Набор данных соревнований M4 представляет собой Стандарт для прогнозирования временных рядов, поэтому исследователи и практики часто используют его для оценки своих моделей прогнозирования и сравнения их с современными моделями.

* Numenta Anomaly Benchmark (NAB). Исследователи и практики используют NAB для оценки и сравнения эффективности различных алгоритмы обнаружения аномалий на разнообразном наборе данных временных рядов, а также для проверки надежности этих алгоритмов в различных случаях использования.

* Набор данных Google Trends. Исследователи, маркетологи и компании часто используют набор данных Google Trends для понимания как поисковые фразы и темы меняются со временем, а также выявлять закономерности и тенденции в онлайн-поведении. Этот набор данных можно использовать для отслеживания и понимания изменений в уровне популярности данного бренда, продукта, операций или проблемы. Кроме того, его можно использовать для определения наиболее популярных слов и предметов в определенном языке или регионе и сопоставления их с глобальными тенденциями.

* Набор данных временных рядов веб-трафика Википедии – Исследователи и специалисты по обработке и анализу данных часто используют набор данных временных рядов веб-трафика Википедии, чтобы изучить динамику трафика веб-сайта, понять, как люди взаимодействуют с Википедией, а также выявить закономерности и тенденции в онлайн-поведении. Его можно использовать для сравнения трафика разных языков, изучения популярности различных статей Википедии и отслеживания эволюции статей с течением времени. Его также можно использовать для понимания того, как события, шаблоны или другие внешние переменные влияют на трафик.

* Ежемесячный набор данных о солнечных пятнах – Солнечные физики, метеорологи и климатологи часто используют ежемесячный набор данных о солнечных пятнах. исследовать солнечную активность и то, как она влияет на климат и атмосферу планеты. Набор данных можно использовать для изучения взаимосвязи между солнечной активностью и изменением климата, отслеживания количества солнечных пятен с течением времени и оценки циклов солнечных пятен. Его также можно использовать для выявления закономерностей и тенденций солнечной активности и прогнозирования солнечной активности в будущем.

Демографический и экономический анализ

  • Международная база данных Бюро переписи населения США (IDB) – Набор данных IDB особенно полезен для исследователей, политиков и предприятий, которые изучают динамику населения, прогнозируют будущий рост населения, отслеживают экономическое развитие, а также сравнивают демографические и экономические характеристики разных стран.

Мониторинг окружающей среды

* Временные ряды глобальных аномалий температуры суши и океана — для изучения тенденций глобальной температуры и понимания как температура меняется с течением времени, климатологи, метеорологи и ученые часто используют набор данных временных рядов глобальных аномалий температуры суши и океана. Он может отслеживать температурные аномалии поверхности суши и океана, определять закономерности и тенденции температуры, а также понимать, как различные элементы, такие как выбросы парниковых газов, солнечная активность и океанские течения, влияют на температуру.

* Набор данных для определения уровня озона — исследователи, лица, принимающие решения , и компании часто используют набор данных обнаружения уровня озона, чтобы понять уровни озона в атмосфере и то, как они меняются с течением времени. Его можно использовать для мониторинга уровня озона, выявления моделей и тенденций, а также для понимания того, как различные элементы, такие как климат, дорожное движение и промышленная деятельность, влияют на уровень озона.

Транспорт

  • Набор данных такси Нью-Йорка — Чтобы понять транспортные схемы Нью-Йорка, исследователи, градостроители и предприятия часто используют набор данных New York City Taxi. Его можно использовать для отслеживания количества поездок, пройденного расстояния и денег, которые приносит такси. взаимосвязь между погодой и спросом на транспорт.

Заключительные мысли о наборах данных временных рядов

Некоторые из этих наборов данных можно использовать в нескольких категориях, а другие не ограничены сценарием одноразового использования.

Они также доступны для свободного скачивания и использования любым пользователем.


Оригинал