10 лучших наборов данных для анализа временных рядов
25 января 2023 г.Данные временных рядов, по сути, представляют собой набор точек данных, организованных во времени. Время часто является независимой переменной, и цель обычно состоит в том, чтобы прогнозировать будущее во временном ряду.
В этой статье мы рассмотрим 10 лучших наборов данных для анализа временных рядов, чтобы понять, как определенный показатель меняется со временем, и спрогнозировать будущие значения.
Список лучших наборов данных временных рядов
-
Набор данных соревнований M4. Этот набор данных представляет собой набор более 100 000 временных рядов годовых, квартальных, месячных и других (еженедельных, ежедневных и ежечасных) данных, разделенных на обучающие и тестовые наборы данных, которые используются в конкурсе прогнозистов M4, который является ежегодным соревнованием, организованным Международным институтом прогнозистов (IIF). ). Конкурс направлен на оценку и сравнение различных методов и моделей прогнозирования на различных временных рядах.
2. Numenta Anomaly Benchmark (NAB). Набор данных NAB представляет собой набор реальных и искусственных данных временных рядов и используется для оценки алгоритмов обнаружения аномалий. Он содержит разнообразные данные временных рядов, которые охватывают различные области, такие как финансы, транспорт и мониторинг окружающей среды, что делает его подходящим эталонным набором данных для оценки алгоритмов обнаружения аномалий.
3. Международная база данных Бюро переписи населения США (IDB) – The IDB набор данных включает в себя различные демографические и экономические данные временных рядов для стран по всему миру. Набор данных включает в себя различные данные временных рядов по странам по всему миру, такие как население, рождаемость, смертность, миграция и экономические показатели, собранные и предоставленные Бюро переписи населения США, которое является независимым агентством федерального правительства США.< /p>
4. Набор данных Google Trends. Этот набор данных содержит относительную популярность определенного поискового запроса с течением времени. , по данным Google. Он также основан на количестве поисковых запросов в Google по определенному термину, нормализованному для отражения популярности термина по отношению к общему количеству поисковых запросов в Google.
5. Набор данных такси Нью-Йорка – Этот набор данных включает временные ряды данных о поездках на такси в Нью-Йорке, включая время посадки и высадки, места, цены на транспорт, расстояние до поездки, стоимость проезда и количество пассажиров.
6. Пекинский многосайтовый набор данных о качестве воздуха a> – этот набор данных включает ежечасные измерения качества воздуха в различных точках Пекина.
7. Набор данных временных рядов веб-трафика Википедии -Этот набор данных включает временные ряды данных о трафике различных статей Википедии. Набор данных предоставляет информацию о количестве просмотров и посетителей каждой статьи Википедии, а также о количестве правок и соавторов.
8. Временные ряды глобальных аномалий температуры суши и океана – этот набор данных включает данные временных рядов. от температуры поверхности суши и океана. Данные представлены в виде температурных аномалий, представляющих собой разницу между температурой данного года и средней температурой за отчетный период.
9. Ежемесячный набор данных о солнечных пятнах. Этот набор данных включает ежемесячное количество солнечных пятен с 1749 года по 2018 (269 лет). Солнечные пятна — это более холодные участки поверхности Солнца, созданные огромными изменениями магнитного поля Солнца. Эти колебания магнитного поля Солнца могут вызывать солнечные вспышки и выбросы корональной массы, которые могут оказывать существенное влияние на атмосферу и климат Земли.
10. Набор данных для определения уровня озона. Этот набор данных включает два наборы данных об уровне приземного озона, используемые для определения уровня озона в атмосфере. Он был собран в районах Хьюстона, Галвестона и Бразории в период с 1998 по 2004 год и включает ежечасные измерения уровней озона, где один представляет собой восьмичасовой набор пиковых значений (eighthr.data), а другой - одночасовой набор пиковых значений. (onehr.data).
Распространенные варианты использования наборов данных временных рядов
Анализ и прогнозирование временных рядов
- Набор данных соревнований M4. Набор данных соревнований M4 представляет собой Стандарт для прогнозирования временных рядов, поэтому исследователи и практики часто используют его для оценки своих моделей прогнозирования и сравнения их с современными моделями.
* Numenta Anomaly Benchmark (NAB). Исследователи и практики используют NAB для оценки и сравнения эффективности различных алгоритмы обнаружения аномалий на разнообразном наборе данных временных рядов, а также для проверки надежности этих алгоритмов в различных случаях использования.
* Набор данных Google Trends. Исследователи, маркетологи и компании часто используют набор данных Google Trends для понимания как поисковые фразы и темы меняются со временем, а также выявлять закономерности и тенденции в онлайн-поведении. Этот набор данных можно использовать для отслеживания и понимания изменений в уровне популярности данного бренда, продукта, операций или проблемы. Кроме того, его можно использовать для определения наиболее популярных слов и предметов в определенном языке или регионе и сопоставления их с глобальными тенденциями.
* Набор данных временных рядов веб-трафика Википедии – Исследователи и специалисты по обработке и анализу данных часто используют набор данных временных рядов веб-трафика Википедии, чтобы изучить динамику трафика веб-сайта, понять, как люди взаимодействуют с Википедией, а также выявить закономерности и тенденции в онлайн-поведении. Его можно использовать для сравнения трафика разных языков, изучения популярности различных статей Википедии и отслеживания эволюции статей с течением времени. Его также можно использовать для понимания того, как события, шаблоны или другие внешние переменные влияют на трафик.
* Ежемесячный набор данных о солнечных пятнах – Солнечные физики, метеорологи и климатологи часто используют ежемесячный набор данных о солнечных пятнах. исследовать солнечную активность и то, как она влияет на климат и атмосферу планеты. Набор данных можно использовать для изучения взаимосвязи между солнечной активностью и изменением климата, отслеживания количества солнечных пятен с течением времени и оценки циклов солнечных пятен. Его также можно использовать для выявления закономерностей и тенденций солнечной активности и прогнозирования солнечной активности в будущем.
Демографический и экономический анализ
- Международная база данных Бюро переписи населения США (IDB) – Набор данных IDB особенно полезен для исследователей, политиков и предприятий, которые изучают динамику населения, прогнозируют будущий рост населения, отслеживают экономическое развитие, а также сравнивают демографические и экономические характеристики разных стран.
Мониторинг окружающей среды
- Пекинский набор данных о качестве воздуха на нескольких объектах< /a> - Исследователи, лица, принимающие решения, и предприятия часто используют набор данных Beijing Multi-Site Air-Quality, чтобы понять качество воздуха в Пекине и то, как оно меняется с течением времени. Его можно использовать для контроля концентраций различных загрязняющих веществ, пятен и т.п. тенденции качества воздуха и понять, как различные переменные, такие как погода, дорожное движение и промышленная деятельность, влияют на качество воздуха. Его также можно применять для прогнозирования качества воздуха в будущем и оценки эффективности различных методов контроля качества воздуха.
* Временные ряды глобальных аномалий температуры суши и океана — для изучения тенденций глобальной температуры и понимания как температура меняется с течением времени, климатологи, метеорологи и ученые часто используют набор данных временных рядов глобальных аномалий температуры суши и океана. Он может отслеживать температурные аномалии поверхности суши и океана, определять закономерности и тенденции температуры, а также понимать, как различные элементы, такие как выбросы парниковых газов, солнечная активность и океанские течения, влияют на температуру.
* Набор данных для определения уровня озона — исследователи, лица, принимающие решения , и компании часто используют набор данных обнаружения уровня озона, чтобы понять уровни озона в атмосфере и то, как они меняются с течением времени. Его можно использовать для мониторинга уровня озона, выявления моделей и тенденций, а также для понимания того, как различные элементы, такие как климат, дорожное движение и промышленная деятельность, влияют на уровень озона.
Транспорт
- Набор данных такси Нью-Йорка strong> — Чтобы понять транспортные схемы Нью-Йорка, исследователи, градостроители и предприятия часто используют набор данных New York City Taxi. Его можно использовать для отслеживания количества поездок, пройденного расстояния и денег, которые приносит такси. взаимосвязь между погодой и спросом на транспорт.
Заключительные мысли о наборах данных временных рядов
Некоторые из этих наборов данных можно использовать в нескольких категориях, а другие не ограничены сценарием одноразового использования.
Они также доступны для свободного скачивания и использования любым пользователем.
Оригинал