Как данные в социальных сетях используются для обнаружения депрессии

Как данные в социальных сетях используются для обнаружения депрессии

10 июня 2025 г.
  1. Аннотация и введение
  2. Методология
  3. Результаты
  4. Обсуждение и ссылка

Результаты

Отбор изучения

Процесс поиска начался с выявления в общей сложности 328 исследований из трех баз данных: 192 из Google Scholar, 101 от PubMed и 35 из IEEE XPLORE. После удаления 57 дубликатов исследований 271 уникальные названия и рефераты были сохранены для скрининга. Во время названия и абстрактного обзора 174 исследования были исключены. Эти исключения были связаны с проблемами, связанными с методологией (53 исследования), охватом (77 исследованиями) и типом публикации (44 исследования). Это оставило 97 полнотекстовых исследований подробно рассмотрено.

После рассмотрения полных текстов было исключено еще 50 публикаций. Причины исключения включали вывод за пределами масштаба или нерелевантного (32 исследования), методологические проблемы (6 исследований), тип публикации (9 исследований) и недоступность (3 исследования). В конечном счете, 47 исследований были включены в окончательный синтез повествования.

На рисунке 1 показано, как первоначальный пул исследований был уточнен до наиболее важного исследования для включения.

Характеристики включенных исследований

В этом систематическом обзоре ключевые данные, как указано в таблице 1, во всех 47 включенных исследованиях представлены в онлайн -дополнительном документе. Большинство исследований посвящены Twitter, Reddit и Facebook, с 32 исследованиями, посвященными Twitter, 8 на Reddit и 7 на Facebook. Кроме того, 1 исследование изучило Blued (платформа для сообществ МСМ), а другое сосредоточено на индийских социальных сетях (SNS). Примечательно, что 8 исследований (17,02%) включали несколько платформ. Наиболее часто используемые модели включают в себя традиционные подходы машинного обучения, такие как машины поддержки векторных векторных (SVM) (19 исследований), деревья модели (например, деревья решений в 6 исследованиях, случайные леса в 13 исследованиях и повышение экстремального градиента (XGBOOST) в 3 исследованиях) и логистическая регрессия (6 исследований). В некоторых исследованиях также изучались модели глубокого обучения, в том числе сверточные нейронные сети (CNN) (9 исследований), длинные кратковременные сети памяти (LSTM) (5 исследований) и двунаправленные представления энкодера от трансформаторов (BERT) (9 исследований) для обнаружения депрессии.

Методологическое качество и риск предвзятости

Ионная модель риска оценки смещения (Persast) (Wolff et al., 2019), который обеспечивает структурированную структуру для четырех ключевых доменов: участники, предикторы, результат и анализ. Этот комплексный инструмент позволил провести глубокую оценку потенциальных смещений на каждом этапе жизненного цикла машинного обучения, включая сбор данных и предварительную обработку, разработку модели и оценку модели. Кроме того, мы оценили смещения в сообщении о методологиях исследования и результатах, обеспечивая тщательную оценку прозрачности и полноты. Риск предвзятости оценивался путем применения целевых вопросов для каждой области, которые перечислены в таблице 2. Благодаря включению как вероятносной оценки и предвзятости, мы стремились определить общие источники предвзятости, понять их последствия для результатов исследования и оценить общую достоверность и обобщение моделей машинного обучения, используемых для обнаружения психического здоровья в социальных сетях.

Выбор выборки и репрезентативность (Q1 и Q2):

В рецензируемых исследованиях использовались различные методы отбора проб на различных платформах социальных сетей, в основном сосредоточены на Twitter (63,8%) с дополнительными данными из Reddit (23,5%), Facebook (8,5%) и других социальных сетей (2,1%). В большинстве исследований (около 80%) использовались методы невыполнения отбора проб, такие как удобная выборка или фильтрация ключевых слов, часто используя API (например, API Twitter, Reddit API) для фильтрации постов с помощью конкретных ключевых слов, связанных с психическим здоровьем, таких как «депрессия» или «#mentalHealth», или использование предварительных данных, связанных с психическим здоровьем из репазиторий, таких как Kaggle.

Разнообразие критериев выборки, размеров выборки, демографических деталей, языкового фокуса и географических регионов в исследованиях вносит потенциальные предубеждения. Размеры выборки и уровни представления значительно варьировались среди исследований, из небольших исследований (например, исследования № 46, в котором проанализировали 4124 посты в Facebook от 43 студентов с предварительно определенными критериями от США) до крупномасштабного анализа (например, исследование № 5, которое проанализировало 56,411,200 твитов от 70 000 пользователей по семи крупным цинси США). Во многих исследованиях не хватало подробной демографической информации. Большинство исследований были сосредоточены преимущественно на английские позиции и конкретные регионы, такие как США, Великобритания, Япония, Испания и Португалия, хотя в нескольких исследованиях изучались посты на других языках, такие как исследование № 15, в которых анализировали арабские твиты. Даже в этих регионах и изучении языков демографическое распределение не всегда было полностью сбалансированным. Например, исследование № 1 сообщило о среднем возрасте участника в возрасте 30,5 лет (в диапазоне от 18 до 68) и имело небольшую чрезмерную представленность участников на 66,4%.

Нерепрезентативные подходы отбора проб, наблюдаемые в разных исследованиях, предполагают ограниченную обобщение для более широкой популяции пользователей в социальных сетях. Основные идентифицированные смещения включают:

● Предвзятость платформы: преобладание Twitter (63,8%) по сравнению с другими платформами означает, что результаты могут не представлять поведение на таких платформах, как Facebook, Instagram или Reddit. Как предполагает Olteanu et al. (2019), использование многоплатформенных данных может сократить платформу-специфические предубеждения и обеспечить более полное представление о поведении пользователей.

● Предвзятость языка: подавляющее внимание на английском языке (более 90%) исключает понимание нежевочных сообществ, ограничивая обобщение результатов в разных лингвистических группах. Например, исследование № 15 было одним из немногих, которые проанализировали неанглийские твиты, что указывает на редкость многоязычных исследований в этой области. Чтобы решить эту проблему (Danet et al., 2007) рекомендовал использовать многоязычные методы анализа, такие как машинный перевод или использование многоязычных исследовательских групп для захвата более разнообразного языкового ландшафта.

● Географическая предвзятость. Исследования часто сосредоточены на конкретных регионах, таких как, например, в США и Европейских странах, исследование № 5 проанализировало твиты из семи основных городов США, и исследование № 19, посвященное пользователям Твиттера в Испании и Португалии. (Hargittai, 2015) предполагает расширение географического охвата, чтобы лучше представлять глобальные группы населения и избежать конкретных результатов.

● Предвзятость отбора: некоторые исследования основывались на выборке на основе ключевых слов, которые могут упускать из виду пользователей, не явно упоминающих психическое здоровье. Например, исследование № 7 искало твиты, содержащие «У меня была диагностирована депрессия». Как предложено (Morstatter, 2013), объединение на основе ключевых слов и случайной выборки может отражать более широкий спектр поведения и дискуссий пользователей.

● Предвзятость к самоотборению: платформы, такие как MTURK или ClickWorker, используемые в некоторых исследованиях (например, исследования № 45 и № 1 соответственно), могут привлекать конкретные демографические профили или профили занятости (например, более высокая цифровая грамотность, конкретные возрастные диапазоны или конкретные социально-экономические статусы), влияющие на обобщение. (Chandler & Shapiro, 2016), рекомендуйте объединить несколько источников найма и использовать стратифицированную выборку для достижения более репрезентативного пула участников.

Таким образом, ни одно исследование в обзоре не предоставило полностью репрезентативную выборку всех пользователей социальных сетей или сообщений. Ключевые ограничения включают в себя фокусировку с конкретной платформой (в основном Twitter), тяжелую зависимость от невыполнимости методов отбора проб (например, приблизительно 80% исследований, использовавших удобные выборки или фильтрацию ключевых слов), а также географические и лингвистические ограничения. Примечательно, что более 90% самих исследований признали эти ограничения, признавая проблемы достижения репрезентативности в исследованиях в социальных сетях. Эти ограничения в значительной степени неизбежны из -за характера платформ социальных сетей и ограничений текущих методологий сбора данных. Это подчеркивает необходимость постоянных усилий по разработке более сложных методов отбора проб и аналитических методов для смягчения этих предубеждений.

Точно так же в некоторых исследованиях явно указано, что их результаты предназначены для представления только конкретных групп населения. Например, исследование № 8 и исследование № 21 было сосредоточено на пользователях, обсуждающих психическое здоровье или конкретные демографические группы на конкретных платформах. Эти ограничения значительно влияют на обобщение результатов для более широкой популяции пользователей социальных сетей. Будущие исследования должны стремиться к более разнообразной и репрезентативной выборке между платформами, языками и географическими регионами для повышения применимости результатов в области психического здоровья и исследований в социальных сетях.

Предварительная обработка данных с фокусом обработки негативных слов (Q3):

Во всех исследованиях было последовательно выполнено несколько общих задач предварительной обработки. Во всех исследованиях была проведена токенизация, чтобы разбить текст на отдельные слова или токены, а этапы нормализации текста включали преобразование текста в нижний регистр, а также удаление пунктуации, URL -адресов и специальных символов. Многие исследования также выполнили удаление стоп-слов, чтобы устранить общие слова, которые, как правило, не являются информативными для моделирования. Кроме того, некоторые исследования применяли Stemming и Lemmatization, чтобы уменьшить слова в их базовые или корневые формы, тем самым объединяя различные морфологические варианты. Методы извлечения признаков, такие как частота нежелевой частоты документов (TF-IDF) (Singh & Singh, 2022), Bag of Words (Bow) (Singh & Singh, 2022) и различные методы встраивания слов, широко использовались для представления текстовых данных численно для целей моделирования.

В то время как эти стандартные этапы предварительной обработки были в целом применялись, определенные аспекты анализа настроений при обнаружении психического здоровья требуют дополнительного внимания. Одним из таких аспектов является эффективная обработка негативных слов, что имеет решающее значение для точного интерпретации настроений и эмоционального тона, особенно в этом контексте. Среди 47 пересмотренных исследований подходы к негативным словам значительно варьировались:

Во -первых, только меньшинство исследований (11 из 47 исследований, приблизительно 23%) явно рассматривало негативные слова или отрицания на своих этапах предварительной обработки. Методы включали стандартизацию всех негативных слов в базовую форму, например «не», во время предварительной обработки, которая упрощает представление отрицаний и улучшает распознавание настроений (например, исследования № 3 и № 34). В некоторых исследованиях количественно определили негативные слова в качестве признаков путем расчета метрик, таких как пользовательское среднее количество негативных слов на пост. Этот показатель отражает частоту негативных выражений на одного пользователя и затем используется в качестве входных данных для моделей машинного обучения для выявления депрессивных эмоций (например, исследование № 21). Другие (например, исследование № 25) присваивали вес -1 отрицательным наречия, чтобы учесть их эффект инверсии на настроениях предложения, обеспечивая более точное количественное определение настроений. Более того, в нескольких исследованиях использовались конкретные методы управления отрицательными в рамках их анализа настроений. Например, в некоторых исследованиях использовались инструменты анализа настроений, такие как TextBlob для определения полярности слов в контексте, выявляя негативные слова в качестве показателей симптомов депрессии (например, исследование № 31). Другие включали в себя категории лингвистических исследований и подсчеты слов (LIWC), связанные с отрицательными и негативными эмоциями, косвенно решающие отрицания через предопределенные категории лексиконов (исследования № 1, № 40, № 42, #46 и #47).

Важность обработки отрицания также была признана в исследованиях, которые в настоящее время находятся в рассмотрении. Например, исследование № 6 специально изучала роль предварительной обработки отрицания в анализе настроений для обнаружения депрессии. Сравнивая наборы данных с обработкой отрицания и без нее, авторы продемонстрировали, что решение отрицаний может значительно повысить точность как анализа настроений, так и обнаружения депрессии, подчеркнув необходимость решения их при предварительной обработке. Это исследование подчеркивает критическую потребность в комплексной обработке отрицания при предварительной обработке для повышения надежности моделей машинного обучения в контексте психического здоровья. Во-вторых, подмножество исследований (9 из 47 исследований, приблизительно 19%), явно не обрабатывала негативных слов, но использовались современные языковые модели, способные по своей природе управлять отрицаниями из-за их контекстуального понимания, таких как модели на основе трансформаций, такие как двунаправленные представления кодеров от трансформаторов (Bert) (Devlin, 2018) и Mental Health Bert (Mentalbert) (owen et al., 2023) ( # #, #, #, #, #, #, #, #, #, #, #, #, #, #. #15, #16 и #39). Эти модели, основанные на трансформаторах, могут захватывать контекст отрицания, обрабатывая текстовые двузначные без явных этапов предварительной обработки. В других исследованиях использовались механизмы внимания [1] со встроениями слов, такими как слои внимания в сочетании с глобальными векторами для представления слов (перчатки), позволяя моделям по своей природе понимать и назначать соответствующие веса отрицаниям посредством контекстных встраиваний (например, исследования № 7, № 10 и № 13). Кроме того, встраивание из языковых моделей (ELMO), которые захватывают весь контекст слова в предложении, также были отмечены как метод, который мог бы захватить эффект негативных слов без явного обработки (исследование № 45).

However, the majority (27 out of 47 studies, approximately 57%) neither explicitly addressed negative words in their preprocessing nor used models inherently capable of handling negations (i.e., Studies #2, #4, #5, #11, #12, #14, #17, #18, #19, #20, #22, #23, #24, #26, #27, #28, #29, #30, #32, #33, #35, #36, #37, #38, #41, #43 и #44). Эти исследования в первую очередь были сосредоточены на стандартных задачах предварительной обработки (например, токенизации, более низкого перерыва, удаления стоп-слов, стебля и лемматизации), методов извлечения признаков (например, TF-IDF, лука) и основных встраиваний слов (например, слово для вектора [Word2VEC]), без каких-либо особых соображений для отрицания.

Влияние на производительность модели и потенциальное смещение варьировалось в зависимости от того, как были обработаны негативные слова. Исследования, в которых явно рассматривалась негативная обработка слов, сообщили об улучшении точности модели и более нюансированном понимании настроений (Helmy et al., 2024). Правильная обработка отрицаний позволила этим моделям правильно интерпретировать фразы, где отрицания инвертируют настроение (например, «не счастливы» против «счастливого»), что приводит к более надежным результатам. Напротив, исследования, которые явно не учитывали негативные слова, рискуя неверно истолковывать отрицательные выражения, вводя предвзятость в их выводы. Этот надзор может привести к неверно присвоить положительные чувства отрицательному отрицательным выражениям или наоборот, тем самым искажая анализ. Такие смещения могут значительно повлиять на общую производительность и обобщение моделей, особенно в чувствительных приложениях, таких как обнаружение депрессии. В то время как в некоторых исследованиях использовались передовые модели, способные по своей природе обрабатывать отрицания (например, исследования № 7, № 8, № 9, № 10, #13, № 15, #16, #39 и № 45), зависит исключительно на способность модели без явного предварительной обработки, может не охватить все нужды отрицания. Явно устранение отрицаний может еще больше повысить производительность модели, даже при использовании сложных языковых моделей (Khandelwal and Sawant, 2020). Следовательно, интеграция как передовых методов моделирования, так и тщательной предварительной обработки негативных слов могут обеспечить наиболее эффективный подход.

Таким образом, в обзоре подчеркивается значительный пробел в явной обработке негативных слов в предварительной обработке данных среди исследований, посвященных анализу настроений и связанных с ним областям. Правильное управление отрицаниями имеет решающее значение, поскольку оно может существенно повлиять на точность модели, так и надежность. Без адекватной обработки негативных слов модели могут вводить предвзятость и снизить их эффективность, особенно в таких приложениях, как психический анализ и обнаружение депрессии, где понимание нюансов настроений имеет решающее значение. Будущие исследования должны расставить приоритеты в включении явных методов обработки отрицания в их трубопроводы предварительной обработки для повышения производительности модели и обеспечения более точной интерпретации текстовых данных.

Разработка модели

Настройка гиперпараметра (Q3, Q4 и Q5)

Настройка гиперпараметра является критическим аспектом оптимизации моделей машинного обучения, непосредственно влияя на их производительность и надежность. Наша оценка 47 рассмотренных исследований была сосредоточена на том, сообщали ли исследования их гиперпараметры, степень, в которой эти гиперпараметры были оптимизированы, и применялась ли настройка последовательно во всех моделях в каждом исследовании. В частности, 27 исследований (приблизительно 60%) сообщили об использовании гиперпараметров, но не все из них выполнили надлежащую настройку. Только ограниченное количество исследований обеспечило постоянную настройку во всех моделях, причем многие выбирают настройки по умолчанию или настройку только конкретных моделей, оставляя значительный потенциал производительности неисследованным (Yang & Shami, 2020). Эта практика предполагает, что, хотя исследователи признают гиперпараметры, в их всесторонней и последовательной оптимизации в исследованиях все еще существует заметный пробел. Разбивка гиперпараметрической отчетности и практики настройки представлена ​​в таблице 3.

Отсутствие последовательной настройки гиперпараметров может привести к неоптимальной производительности модели, снижению обобщения или смещению модельных сравнений.

Ключевые гиперпараметры, такие как уровень обучения, термины регуляризации или количество скрытых слоев, непосредственно влияют на процесс обучения модели и окончательную точность (Probst et al., 2019). Без надлежащей настройки модели могут переоценить, что означает, что они хорошо работают на учебных данных, но плохо на невидимых данных или подходе, не смоясь вообще захватить сложность данных. Например, в исследовании № 2 не сообщалось о какой -либо настройке, которая, вероятно, повлияла на способность ее модели обобщать до невидимых данных, что привело к снижению производительности модели.

Когда настраиваются только некоторые модели, сравнения между моделями становятся смещенными, поскольку модели с оптимизированными гиперпараметрами получают чрезмерное преимущество. Например, в исследовании № 1 модель Elastic Net была настроена на свои гиперпараметры, в то время как другие модели, такие как случайный лес, остались с настройками по умолчанию. Это несоответствие может вводить в заблуждение предполагаемое превосходство модели упругого числа из -за только настройки, а не какого -либо неотъемлемого преимущества в ее архитектуре, что приводит к предвзятым сравнениям модели.

Значительная часть исследований не сообщала (приблизительно 40%) и не смогла последовательно настраивать их на все модели (приблизительно 32%), что ставит под угрозу обоснованность их результатов. Например, исследования № 2 и № 4 использовали настройки по умолчанию и упущенные возможности для повышения производительности, в то время как исследование № 1 настраивало гиперпараметры только для одной модели, что привело к предвзятым сравнениям. Правильная настройка гиперпараметров необходима для того, чтобы избежать таких проблем, как переосмысление или недостаток. Последовательная настройка во всех моделях обеспечивает справедливое сравнение и повышает достоверность результатов.

Предоставление подробных описаний настройки гиперпараметрических и процессов оптимизации повышает прозрачность и воспроизводимость. Стандартизированные протоколы настройки, такие как поиск сетки, случайный поиск или байесовская оптимизация, должны использоваться для изучения оптимальных конфигураций. Четко документирование стратегий настройки и любых проблем, возникающих в результате, обеспечит ценный контекст для интерпретации результатов производительности модели и укрепления достоверности будущих исследований машинного обучения. Будущие исследования должны расставить приоритеты в последовательных стратегиях настройки и подробной отчетности для повышения достоверности и воспроизводимости их исследований машинного обучения.

Разделение данных (Q6):

Правильное разделение данных является фундаментальным для разработки надежных моделей машинного обучения, которые хорошо обобщают невидимые данные. Из 47 рассмотренных исследований 32 исследования (приблизительно 68%) придерживались рекомендуемых протоколов машинного обучения путем надлежащего разделения своих наборов данных на обучение, проверку и тестовые наборы или путем использования методов перекрестной проверки. Разбивка методов разделения данных приведена в таблице 4.

Среди исследований, которые явно разделили свои наборы данных, такие как исследования № 1, № 6 и № 7, были зарегистрированы показатели эффективности на основе тестовых наборов, придерживающихся лучших практик, изложенных (Goodfellow et al., 2016) (Goodfellow et al., 2016). Оценивая свои модели на невидимых данных, они обеспечили то, что производительность моделей точно отражала их обобщение.

Семь исследований использовали методы перекрестной проверки вместо традиционного поезда/валидации/теста. Такие методы, как K-образной перекрестной проверки, обеспечивают надежную оценку способности модели обобщать путем итеративного обучения и тестирования на различных подмножествах набора данных (Hastie et al., 2009). Например, в исследовании № 39 использовалась 5-кратная перекрестная проверка, где набор данных был разделен на пять подмножеств, причем каждый подмножество использовался в качестве тестового набора, когда оставшиеся подмножества сформировали учебный набор. Зарегистрированные показатели-позитивная прогностическая ценность (PPV), чувствительность и оценка F1-были усреднены по пяти тестовых складкам в процессе перекрестной проверки, что обеспечивало оценку, основанную на отдельных тестовых данных, а не только на учебных данных.

И наоборот, как показано в таблице 4, приблизительно 17% исследований (8 из 47) не сообщали о достаточных подробностях о разделении данных или не использовали методы разделения. Например, исследование № 2 предоставило ограниченную информацию о разделе наборов данных и не рассказало о том, как была оценена производительность модели, в то время как исследование № 5 применялось ранее существовавшие модели без проведения новых разделений или проверки данных в рамках их анализа, тем самым ограничивая достоверность их оценки эффективности.

Неадекватные методы разделения данных вводят значительный риск предвзятости, особенно переосмысления. Модели, в которых отсутствует надлежащее разделение данных, как правило, запоминают данные обучения, что приводит к чрезмерно оптимистичным показателям производительности, которые не точно отражают реальную применимость. (Бишоп, 2006).

Согласно Andrew (NG, 2018), надлежащие наборы проверки и тестирования имеют решающее значение для оценки обобщения и предотвращения переживания. Без них модели могут показаться слишком эффективными из -за завышенных показателей эффективности, вводящих в заблуждение при применении за пределами контекста обучения. Например, исследования, в которых оценивались модели исключительно на учебных данных, такие как исследования № 2 и № 5, вероятно, переоценивают их реальные результаты.

Таким образом, в то время как большинство рецензируемых исследований придерживались лучших практик в разделении данных, тем самым повышая доверие и обобщение их выводов, значительное меньшинство этого не сделало. Отсутствие надлежащего распределения данных примерно в 17% исследований создает риск предвзятости, что подтверждает необходимость более строгих практик. Для разработки надежных моделей будущие исследования должны последовательно применять надлежащее разделение данных и отчет о производительности на основе проверки или наборов тестирования для обеспечения точных, беспристрастных оценок. Прозрачные отчеты о разделении и оценке данных, как подчеркнуто (Bishop, 2006) и (Goodfellow et al., 2016), является фундаментальной для повышения воспроизводимости и надежности в исследованиях машинного обучения. Включая эти практики, исследователи могут повысить надежность своих моделей, гарантировать, что результаты являются как действительными, так и применимыми в сценариях реального мира и способствуют развитию этой области.

Оценка модели: показатели оценки для несбалансированных классов сценариев (Q8, Q9 и Q10):

В области обнаружения эмоций, связанных с депрессией, наборы данных часто демонстрируют значительный классный дисбаланс, при этом не депрессированные случаи значительно превосходят депрессивные. Этот дисбаланс создает проблемы для оценки моделей, поскольку традиционные метрики, такие как точность, могут вводить в заблуждение. Согласно He & Garcia (2009), точность может не адекватно отражать производительность модели в несбалансированных сценариях, потому что модель может достичь высокой точности, просто предсказав класс большинства. Следовательно, такие показатели, как отзыв, точность, оценка F1 и область под кривой рабочей характеристики приемника (AUROC или AUC), являются предпочтительными, поскольку они обеспечивают более сбалансированную оценку, учитывая как ложные позитивы, так и ложные отрицательные. Japkowicz (2013) дополнительно подчеркивает необходимость использования этих метрик, утверждая, что они имеют решающее значение для комплексной оценки эффективности модели в присутствии классового дисбаланса.

В контексте обнаружения депрессии отзыв особенно важен, поскольку он измеряет долю фактических положительных случаев (лиц с депрессией), которые модель правильно идентифицирует. В приложениях, в которых отсутствие положительного случая может иметь серьезные последствия, такие как неспособность идентифицировать кого -то, кто в депрессии и может нуждаться в помощи, высокий отзыв имеет решающее значение. Эта приоритизация гарантирует, что модель захватывает как можно больше истинных положительных случаев, даже если она приводит к более ложным срабатыванию.

Точность, с другой стороны, одинаково важна, поскольку она измеряет долю положительных прогнозов, которые являются правильными. При обнаружении депрессии низкая точность указывает на высокую скорость ложных срабатываний-не исключая маркировку не депрессируемых людей как депрессивных, что может вызвать ненужную обеспокоенность тем, кто неправильно помечен как подавленный. Следовательно, балансировка точности с отзывам необходима для обеспечения того, чтобы модель не только определяла истинные случаи депрессии, но и минимизирует количество ложных тревог.

Оценка F1, представляющая гармоническую среднюю точность и отзыв, обеспечивает сбалансированную меру как отзыва, так и точности. Это особенно полезно в дисбалансированных наборах данных, где важен баланс между отзывами и точностью.

Наконец, Auroc измеряет способность модели различать положительные и отрицательные классы в разных пороговых условиях, обеспечивая всесторонний взгляд на дискриминационную силу модели. Более высокий Auroc указывает на лучшую способность различения депрессивных и не депрессированных людей, что делает его надежной метрикой для оценки моделей в этом домене. Among the 47 studies reviewed, approximately 35 (Studies #1, #3, #6, #7, #8, #13, #14, #15, #16, #17, #19, #21, #22, #23, #25, #26, #27, #28, #29, #30, #31, #32, #33, #34, #35, #36, #37, #39, #40, #41, #42, #43, #44, #45, #46) использовали эти предпочтительные показатели. Например, исследование № 6 «Обнаружение депрессии для пользователей Twitter, использующее анализ настроений на английском и арабском твитах», использовал точность, отзыв, оценку F1 и AUC для оценки их моделей, признавая важность этих показателей для несбалансированных данных. Точно так же, исследование № 42, «Классификация полезных комментариев на форумах по наблюдению за самоубийством в Интернете», подчеркнуло отзыв как ключевой метрику в оценке эффективности их модели в определении риска людей.

Помимо использования предпочтительных метрик, альтернативный способ устранения несбалансированных данных включает реализацию методов балансировки данных, включая повторную выборку и повторную пробежку. Например, исследование № 6, «обнаружение депрессии для пользователей Twitter, использующее анализ настроений на английском и арабском твитах», использовали методы динамической выборки, такие как преобразование класса меньшинства и недостаточное количество класса большинства, чтобы сбалансировать набор данных. Этот подход гарантировал, что модель имела достаточное воздействие на обоих классов перед построением модели и оценкой. Точно так же, исследование № 41, «Модель глубокого обучения для обнаружения психических заболеваний от пользовательского контента в социальных сетях», использовалась методика перегрузки синтетического меньшинства (SMOTE) для улучшения представления класса меньшинства, что приводит к улучшению эффективности классификации, особенно для недопредставленных классов.

Примечательно, что некоторые исследования (исследования № 3, № 6, #13, #15, #34, #40, #41, #42, #43) применяли как методы балансировки данных, так и предпочтительные показатели оценки вместе для полного решения дисбаланса класса. Например, «Объясняемое обнаружение депрессии с помощью многоуровневых функций с использованием гибридной модели глубокого обучения в социальных сетях» (исследование № 13) сначала реализовали шаги предварительной обработки для сбалансировки набора данных, улучшая способность модели в равной степени учиться у обоих классов. После устранения дисбаланса класса исследование затем использовало оценку F1 и связанные с ними метрики для оценки производительности модели, обеспечивая более точную и справедливую оценку. Эти примеры показывают, что исследователи все больше осознают проблему дисбаланса класса и используют различные подходы для эффективного решения.

И наоборот, некоторые исследования в первую очередь опирались на точность без решения проблем дисбаланса класса. Например, исследования № 2, № 10 и #24 сообщили о высокой точке, но не упоминали методы для смягчения эффектов классового дисбаланса.

В контексте обнаружения депрессии, адресование дисбаланса класса имеет важное значение для достижения надежной оценки модели. Когда экземпляры не депрессируемого класса значительно превосходят по численности случаев депрессивного класса, результирующий дисбаланс может искажать результаты модели, если не управлять должным образом. Для смягчения этой проблемы обычно используются две основные стратегии: использование показателей оценки, которые соответствуют классовым дисбалансу и методам предварительной обработки данных, такие как повторная выборка и повторная пробега. Japkowicz и Stephen (2002) подчеркивают, что такие метрики, как отзыв, точность и оценка F1, предлагают более нюансированную оценку путем учета как положительных, так и отрицательных классов, что снижает потенциальное смещение. Кроме того, методы предварительной обработки данных, такие как повторная веса или повторная дискретизация, регулируют набор данных, чтобы обеспечить сбалансированное воздействие обоих классов, улучшая обучение моделей на несбалансированные данные.

В то время как в некоторых исследованиях использовались обе стратегии, демонстрируя тщательный подход к обработке дисбаланса, другие использовали только один - либо через предпочтительные показатели оценки, либо балансировку данных. Даже когда будет принята только одна стратегия, она все равно может в некоторой степени снизить потенциальную предвзятость. Однако исключительно полагаться на точность представляет значительный риск предвзятости, поскольку она часто приводит к модели в пользу класса большинства, тем самым не выявляет депрессивных людей. Chawla et al. (2004) подчеркивают, что эта зависимость только от точности может привести к вводящим в заблуждение выводам в несбалансированных наборах данных, поскольку она не точно отражает способность модели обнаруживать экземпляры класса меньшинств.

Из 47 проанализированных исследований примерно 35 использовались предпочтительные показатели, такие как оценка F1, точность, отзыв или AUROC, признавая их важность в оценке моделей на дисбалансированных наборах данных. Семь исследований явно упомянули этапы предварительной обработки, такие как повторная выборка для смягчения дисбаланса класса, даже при использовании точности в качестве показателя оценки. Тем не менее, несколько исследований основывались в основном на точность без устранения дисбаланса класса, потенциально введя предвзятость в их оценки.

В заключение, в то время как значительное количество исследований приняло соответствующие показатели оценки и методы для устранения дисбаланса класса, остается необходимость в более широкой реализации этой практики. Включение сбалансированных показателей и устранение классового дисбаланса имеет важное значение для надежных и действительных модельных оценок в исследованиях обнаружения депрессии. Как Fernández et al. (2018) рекомендовано, использование этих стратегий повышает надежность моделей машинного обучения в доменах, характеризующихся несбалансированными наборами данных.

Отчетность: прозрачность и полнота:

Прозрачность и полнота в отчетности фундаментальны для целостности и воспроизводимости научных исследований. При рассмотрении 47 исследований мы оценили степень, в которой они прозрачно сообщили о своих методологиях, результатах и ​​ограничениях. Примечательно, что все исследования (100%) включали раздел ограничения, что указывает на общее подтверждение важности решения потенциальных недостатков. Однако глубина и специфичность этих раскрытий значительно варьировались в исследованиях.

В то время как в каждом исследовании упоминалось ограничения, не все из них полностью распознали или раскрывали все критические методологические проблемы, которые могут повлиять на их результаты. Например, как показано в наших предыдущих оценках, приблизительно 23% исследований (11 из 47) не должным образом разделили свои данные или не смогли адекватно сообщать о их методах разделения данных (исследования № 2, № 5, № 9, #12, #20, #27, #31 и #37). Несмотря на это, лишь некоторые из этих исследований явно признали потенциальные предубеждения, введенные в результате неправильного разделения данных в их разделах ограничений. Это говорит о том, что, хотя исследователи, как правило, знают о необходимости сообщать о ограничениях, существует пробел в полном понимании или раскрытии конкретных методологических недостатков, таких как разделение данных, что имеет решающее значение для обобщения и обобщения модели.

Similarly, in the context of hyperparameter tuning, approximately 43% of the studies did not report or properly tune hyperparameters across all models used (e.g., Studies #1, #2, #4, #5, #12, #14, #17, #19, #20, #24, #27, #29, #30, #32, #34, #35, #37, #38, #42, #44, and #46). Лишь немногие признали это ограничение в своих отчетах. Отсутствие комплексной отчетности о настройке гиперпараметров может привести к смещению модельных сравнений и повлиять на воспроизводимость исследований.

Неполная или непрозрачная отчетность может привести к значительному смещению и ограничить воспроизводимость и применимость результатов исследований. Когда критические методологические детали опущены или недооценены, это препятствует способности других исследователей повторять исследования или понимать контекст, в котором результаты действительны. Например, неспособность раскрыть неправильное разделение данных может привести к переоценке производительности модели из -за переживания (Bishop, 2006). Модели, оцениваемые по данным обучения или без соответствующей проверки, могут показаться хорошо, но эта производительность может не обобщить на новые, невидимые данные. Этот надзор может ввести в заблуждение заинтересованные стороны по поводу эффективности моделей и повлиять на последующие исследования или практические приложения, которые основаны на этих выводах.

Аналогичным образом, не сообщать о практике настройки гиперпараметров может привести к несправедливым сравнениям между моделями и неверным интерпретациям их относительных выступлений (Claesen & De Moor, 2015). Модели с оптимизированными гиперпараметрами могут превзойти других не потому, что они по своей природе лучше, а потому, что им дали преимущество в оптимизации. Без прозрачности в сообщении об этой практике читатели не могут оценить справедливость сравнений или повторить процесс оптимизации.

В заключение, хотя все 47 исследований признали важность ограничений отчетности, остается заметное несоответствие в тщательности и прозрачности их отчетности. Для этой области необходимо продвигать прозрачную и всестороннюю отчетность о методологиях и ограничениях. Будущие исследования должны стремиться к полному раскрытию сбора данных, предварительной обработки, разработки модели, настройки гиперпараметрических и оценки. Это включает в себя признание конкретных методологических ограничений, таких как методы разделения данных и смещения отбора проб, а также обсуждение того, как эти ограничения могут повлиять на результаты и обобщение. Такая прозрачность позволит другим точно интерпретировать результаты, воспроизводить исследования и эффективно опираться на предшествующую работу

Сводка результатов и последствий для будущих исследований

В этом систематическом обзоре оценивались предубеждения на протяжении всего жизненного цикла машинного обучения и моделей глубокого обучения для обнаружения депрессии в социальных сетях. При отборе выборки предвзятости возникли из-за преобладающей зависимости от данных в Твиттере, англоязычных данных и конкретных географических регионах, ограничивая репрезентативность результатов. Предварительная обработка данных обычно показала неадекватную обработку отрицаний, что может исказить результаты анализа настроений. Разработка модели часто подвергалась нарушению несовместимой настройки гиперпараметра и ненадлежащим разделением данных, снижением надежности модели и обобщения. Наконец, при оценке модели чрезмерная уверенность в точности без устранения дисбаланса класса рискует в пользу предсказаний большинства класса, потенциально вводящих в заблуждение результатов. Эти результаты подчеркивают важность улучшения методологий для укрепления достоверности и применимости будущих исследований.

Для решения этих предубеждений будущие исследования должны улучшить практику на всех этапах жизненного цикла машинного обучения. Расширение источников данных на нескольких платформах, языках и регионах поможет смягчить платформу и языковые предубеждения и повысить репрезентативность. Стандартизация предварительной обработки данных, особенно при явном обращении с отрицанием, и использование методов повторной выборки и повторного веса повысит точность анализа настроений и наборы данных баланса. Последовательные протоколы настройки гиперпараметров необходимы для обеспечения справедливого сравнения моделей и оптимальной производительности. Наконец, определение приоритетов показателей оценки, таких как точность, отзыв, оценка F1 и AUROC в дисбалансированных наборах данных, особенно для обнаружения депрессии, дадут более точные и проницательные оценки. Внедряя эти улучшения, будущие исследования могут достичь большей модели и обобщения, способствуя более эффективным инструментам обнаружения психического здоровья.

Авторы:

(1) Ючен Цао, Колледж компьютерных наук Хури, Северо -Восточный университет;

(2) Цзяньглай Дай, факультет EECS, Университет Калифорнии, Беркли;

(3) Чжуньян Ван, Центр наук о данных, Нью -Йоркский университет;

(4) Yeyubei Zhang, Школа инженерии и прикладных наук, Университет Пенсильвании;

(5) Сяоруи Шен, Колледж компьютерных наук Хури, Северо -Восточный университет;

(6) Юнбун Лю, Школа инженерии и прикладных наук, Университет Пенсильвании;

(7) Yexin Tian, ​​Технологический институт Джорджии, Колледж компьютеров.


Эта статья естьДоступно на Arxivпод CC по 4,0 лицензии.

[1] Механизмы внимания позволяют моделям сосредоточиться на конкретных частях входных данных, назначая различные веса различным элементам. Это позволяет модели более эффективно захватывать и использовать соответствующую контекстную информацию во время обработки.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE