Наука данных, стоящая за просягами R/Antipwork

Наука данных, стоящая за просягами R/Antipwork

17 июня 2025 г.

Аннотация и 1. Введение

2. Связанная работа

3. Методология

4. Результаты

5. Обсуждение

6. Заключение, ссылки и приложение

3 Методология

3.1 Данные

Мы загрузили все сообщения и комментарии на R/Antipwork Subreddit с 1 января 2019 года по 31 июля 2022 года, используя API Pushshift [9] [3]. Мы рассматривали только сообщения, по крайней мере, с одним ассоциированным комментарием в качестве прокси для дублирования сообщений, ссылающихся на одно и то же событие, не по тематическому и спам-сообщениям, а также посты, которые не получали вовлечения пользователей по другим причинам. Набор данных содержал 304 096 постов и 12 141 548 комментариев. Эти сообщения были сделаны 119 746 пользователями (плакатами), и комментарии были сделаны 1298 451 пользователями (комментаторы).

Мы предварительно обработали набор данных для удаления комментариев, которые потенциально могут сметить наш анализ. Мы отфильтровали комментарии о том, что: (i) были удалены пользователями или модераторами, но остаются в наборе данных в качестве заполнителей (комментарии обычно удаляются для нарушения руководящих принципов сообщества) или (ii) были комментариями от ботов (например«Я бот ...»,Как многие делают по соглашению). После фильтрации 11 665 342 комментариев остались в наборе данных (96,1%). Мы удалили сообщения, которые имели нулевые комментарии после фильтрации, оставив 284 449 постов (93,5%)

3.2 Определения

3.2.1 Типы пользователей.В нашем анализе мы сравниваем поведение двух групп пользователей, которые мы называем «легкими» и «тяжелыми» пользователями R/Antipwork. Мы определяемлегкие плакаты или комментаторыКак те, у кого есть только один пост или комментарий в наборе данных, соответственно. Большинство плакатов представляют собой легкие плакаты (75,1%), а высокий процент комментаторов - легкие комментаторы (42,5%). Мы определяемтяжелые плакаты или комментаторыКак 1% пользователей, занявшие порядок по количеству сообщений или комментариев, соответственно. В целом, тяжелые плакаты сделали 10,1% постов, а тяжелые комментаторы были ответственны за 29,8% комментариев.

3.2.2 периоды времени.Для нашего анализа моделирования тем, мы разделили набор данных на три периода времени:

• Период 1:1 января 2019 г. - 14 октября 2021 г.

• Период 2:15 октября 2021 г. - 24 января 2022 года

• Период 3:25 января 2022 года - 31 июля 2022 года

Эти периоды определены двумя событиями в основных средствах массовой информации: публикация статьи Newsweek [10], которая была первым примером основной статьи в СМИ, ссылаясь на вирусную пост [11] на R/противодействие (15 октября 2021 года) и интервью Fox News с Doreen Ford (25 января 2022 года). Период 2 выделен как серая коробка во всех фигурах, где ось 𝑥 представляет время.

3.3 Обнаружение точки изменения

Мы используем деревья классификации и регрессии (CART) для обнаружения точек изменения [5]. CART-это непараметрический метод, который использует дерево решений для рекурсивного сегментации предиктора на более чистые, более однородные интервалы (часто называемые «расщеплением»). Этот процесс сегментации завершается параметрами сложности

Figure 2: Total number of daily posts submitted to r/antiwork that received at least one comment. A large proportion of posts (29.6%) were made by light posters. Red dashed lines are results from change point detection.

Figure 3: Total number of daily comments on r/antiwork. A large proportion of comments (29.8%) were made by heavy commenters. Red dashed lines are results from change point detection.

Это регулирует стоимость выращивания дерева, добавив штраф за добавление дополнительных разделов («обрезка»). В нашем случае мы устанавливаем дерево регрессии с зависимой переменной в качестве количества постов или комментариев, а также пространство предикторов, как каждый день с 1 января 2019 года - 31 июля 2022 года. Мы использовали пакет RPART R для создания регрессионных моделей [32], индекса Джини для разделения и параметра сложности 0,01 для обрезки.

3.4 Тематическое моделирование

Мы используем скрытое распределение Dirichlet (LDA) для моделирования тем [4]. LDA-это генеративная модель, которая определяет набор скрытых тем, оценивая дистрибутирование тематического документа и тематического слова в документах для предопределенного количества тем. В нашем случае мы считаем, что каждый пост является документом и содержимым этого документа как объединение всех комментариев для этого поста. Мы не включаем текст Post как часть документа, потому что большая доля пост -тел состоит из изображений. Мы предприняли комментарии к моделированию тем, удаляя URL -адреса и останавливаем слова, заменив акцентированных символов на их эквиваленты ASCII, заменив сокращения своими составными словами и лемматизировали все слова. Наконец, мы отфильтровали посты с менее чем 50 комментариями, оставив 11 368 863 комментариев (97,5%) в 181 913 посты (64,0%) для тематического моделирования.

LDA применяли к каждому из трех периодов времени отдельно (см. Раздел 3.2.2). Периоды 1, 2 и 3 содержали 40 794; 71 470 и 69 649 постов соответственно. Мы оцениваем качество тематических моделей с использованием оценки когерентности [24], чтобы выбрать оптимальное количество тем. Каждая тема была помечена человеческим аннотатором со знанием R/противоказано, и темы были выровнены между моделями, использующими эти этикетки, и расстоянием Дженсена-Шаннона между распределением тематического слова. Тематическое моделирование было выполнено с использованием библиотеки Gensim Python [26].

Авторы:

(1) Алан Медлар, Университет Хельсинки, Финляндия (Alan.j.medlar@helsinki.fi);

(2) Ян Лю, Университет Хельсинки, Финляндия (yang.liu@helsinki.fi);

(3) Дорота Гловака, Университет Хельсинки, Финляндия (dorota.glowacka@helsinki.fi).


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

[9] https://pushshift.io/

[10] https://www.newsweek.com/1639419

[11] https://www.reddit.com/r/antiwork/comments/q82vqk/


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE