
Может ли ИИ рассказать, когда ты в депрессии?
10 июня 2025 г.Авторы:
(1) Ючен Цао, Колледж компьютерных наук Хури, Северо -Восточный университет;
(2) Цзяньглай Дай, факультет EECS, Университет Калифорнии, Беркли;
(3) Чжуньян Ван, Центр наук о данных, Нью -Йоркский университет;
(4) Yeyubei Zhang, Школа инженерии и прикладных наук, Университет Пенсильвании;
(5) Сяоруи Шен, Колледж компьютерных наук Хури, Северо -Восточный университет;
(6) Юнбун Лю, Школа инженерии и прикладных наук, Университет Пенсильвании;
(7) Yexin Tian, Технологический институт Джорджии, Колледж компьютеров.
Таблица ссылок
- Аннотация и введение
- Методология
- Результаты
- Обсуждение и ссылка
Абстрактный
Глобальный рост депрессии требует инновационных методов обнаружения для раннего вмешательства. Социальные сети предоставляют уникальную возможность выявить депрессию посредством пользовательских сообщений. Этот систематический обзор оценивает модели машинного обучения (ML) для обнаружения депрессии в социальных сетях, фокусируясь на предубеждениях и методологических проблемах на протяжении всего жизненного цикла ML. Поиск PubMed, IEEE XPLORE и Google Scholar выявили 47 соответствующих исследований, опубликованных после 2010 года. Модель прогнозирования риска оценки смещения (PROST) использовался для оценки методологического качества и риска смещения. Были обнаружены значительные смещения, влияющие на надежность и обобщение модели. Существует преобладающая опора в Твиттере (63,8%) и контенте английского языка (более 90%), причем большинство исследований сосредоточены на пользователях из Соединенных Штатов и Европы. Методы отбора проб не допущенности (приблизительно 80%) ограничивают репрезентативность. Только 23% исследований явно рассматривали лингвистические нюансы, такие как отрицания, решающие для точного анализа настроений. Наблюдалась несовместимая настройка гиперпараметров, и только 27,7% правильно настраивались модели. Около 17% не адекватно разделили данные на обучение, валидацию и наборы тестирования, рискуя переосмыслением. В то время как 74,5% использовали соответствующие показатели оценки для несбалансированных данных, другие полагались на точность без устранения дисбаланса класса, потенциально искажая результаты. Отчетность прозрачности варьировалась, часто не имея критических методологических деталей. Эти результаты подчеркивают необходимость диверсификации источников данных, стандартизации протоколов предварительной обработки, обеспечить последовательную практику разработки моделей, адресовать дисбаланс класса и повысить прозрачность отчетности. Преодолев эти проблемы, будущие исследования могут разработать более надежные и обобщаемые модели ML для обнаружения депрессии в социальных сетях, что способствует улучшению результатов психического здоровья во всем мире.
Введение
По данным Всемирной организации здравоохранения (WHO, 2020), депрессия и другие заболевания психического здоровья стали значительными глобальными проблемами в области здравоохранения, затрагивая более 264 миллионов человек по всему миру. Растущая распространенность проблем психического здоровья подчеркивает неотложную потребность в эффективных стратегиях обнаружения и вмешательства. Ранняя идентификация депрессии может привести к своевременному лечению и лучшим результатам, в конечном итоге снижая бремя для пациентов, их ухаживания и систем здравоохранения (Kessler et al., 2017).
В современную цифровую эпоху социальные сети, такие как Twitter, Facebook и Reddit, играют центральную роль в повседневной жизни для миллионов людей. Эти платформы не только облегчают общение, но и служат общественными магазинами, где люди открыто выражают свои мысли, эмоции и психические состояния (Choudhury et al., 2013). Обширный сгенерированный пользователем контент на этих платформах предоставляет уникальную возможность для исследований в области психического здоровья, что позволяет анализировать лингвистические модели и поведенческие тенденции в реальном времени, а также предоставление понимания, которые в противном случае могут быть недоступными (Guntuku et al., 2017).
Достижения в области машинного обучения и глубокого обучения значительно повысили способность обрабатывать и анализировать крупномасштабные наборы данных. Эти технологии особенно хорошо подходят для обработки сложных и нюансированных данных, обнаруженных в социальных сетях, поскольку они могут идентифицировать закономерности и делать прогнозы на основе текстовых и поведенческих сигналов. Эта возможность делает их ценными инструментами для обнаружения психического здоровья, позволяя исследователям разработать модели, которые могут идентифицировать людей из группы риска, основанные на их активности в социальных сетях (Shatte et al., 2019). Используя алгоритмы, способные учиться на текстовых и поведенческих сигналах, исследователи могут разработать модели, которые способствуют раннему вмешательству в психиатрической помощи.
Обзор исторических исследований по подходам машинного обучения для обнаружения психического здоровья в социальных сетях
Растущий объем исследований изучил применение методов машинного обучения для выявления депрессии с помощью анализа социальных сетей. Различные алгоритмы - от традиционных методов машинного обучения, таких как логистическая регрессия и векторные машины поддержки, до расширенных моделей глубокого обучения и методов ансамбля - были использованы для классификации пользовательских постов и прогнозирования психического здоровья, основанных на лингвистических и семантических особенностях (De Choudhury et al., 2013; Yazdavar et al., 2020). Платформы, такие как Twitter, Facebook и Reddit, часто используются из -за их крупных пользовательских баз и доступности общественной доступности данных.
Один из наиболее распространенных подходов в этом исследовании включает анализ настроений, который направлен на определение эмоционального тона пользовательского контента. Оценивая положительные, негативные или нейтральные настроения, выраженные в постах, исследователи пытаются коррелировать языковые модели с показателями депрессии (Kumar et al., 2020). Например, повышенное использование единичных местоимений от первого лица и слов негативных эмоций было связано с депрессивными симптомами (Rude et al., 2004).
Несмотря на эти многообещающие результаты, многочисленные проблемы сохраняются. Во -первых, многие исследования страдают от ограниченной обобщения из -за небольших или однородных образцов, которые могут не представлять более широкую популяцию. Предвзятость данных является значительной проблемой, вытекающей из чрезмерной представленности определенных демографических групп или лингвистических сообществ, занижающих других людей (Olteanu et al., 2019). Более того, отсутствие надежных методов отбора проб и стандартизированных протоколов препятствует надежности результатов. В-третьих, недостаточно использования моделей передового машинного обучения, наряду с недостаточной обработкой сложных лингвистических нюансов, таких как сарказм или контекстно-зависимые значения, еще больше ограничивает эффективность этих усилий по обнаружению (Calvo et al., 2017).
Исследование пробелов и целей текущего исследования
Хотя отдельные исследования дали ценную информацию о приложении машинного обучения для обнаружения психического здоровья, остается заметное отсутствие комплексных обзоров, которые консолидируют эффективность моделей машинного обучения в различных исследованиях. Как уже говорилось, текущая литература часто не хватает в решении ключевых методологических проблем на протяжении всего жизненного цикла машинного обучения и приложений глубокого обучения, включая выборку, предварительную обработку данных, построение модели и оценку (Johnson et al., 2019). Хотя предубеждения и ограничения были оценены в некоторых отдельных исследованиях их авторами, их более широкие последствия для всех применений машинного обучения и методов глубокого обучения при обнаружении депрессии не были полностью изучены. Следовательно, систематический обзор важен для объединения этих результатов и оценки распространенности и влияния предубеждений в разных исследованиях.
Для решения этих пробелов это исследование направлено на проведение систематического обзора, который синтезирует и оценивает существующие модели машинного обучения для обнаружения депрессии в социальных сетях. Конкретные цели:
1. Изучите эффективность моделей машинного обучения и глубокого обучения, сосредоточившись на смещении, присутствующем в выборке, предварительной обработке данных, построении модели, тонкой настройке, оценке и сравнении, а также о проблемах, связанных с модельными обобщениями на разных платформах социальных сетей.
2. Исследуйте методологические проблемы, в том числе те, которые уникальны для обнаружения психического здоровья, такие как обработка дисбалансов класса, где депрессивные посты являются меньшинством и предварительная обработка для анализа настроений, связанных с отрицательными. Кроме того, более общие проблемы машинного обучения, такие как улучшение методов оценки моделей и устранение смещений данных, связанных с языком и факторами, специфичными для платформы, также сохраняются. Важно признать, что большинство из этих предубеждений возникают непреднамеренно, либо из практических проблем, либо из -за отсутствия стандартизированных руководящих принципов для применения машинного обучения к обнаружению психического здоровья. Управляя этими препятствиями, обзор направлен на то, чтобы предоставить информацию и стратегии для смягчения этих непреднамеренных предубеждений, продвигая разработку более надежных и обобщаемых моделей.
3. Предоставьте рекомендации для будущих исследований для повышения надежности и применимости моделей машинного обучения в обнаружении психического здоровья. Эти идеи направлены на информирование стратегий, которые улучшают усилия по раннему вмешательству и способствуют разработке более надежных, обобщаемых и этически обоснованных приложений машинного обучения. При этом обзор стремится предоставить руководство, которое заполняет пробел, оставленный нынешней практикой, где отсутствие официальных руководящих принципов иногда приводило к настойчивости непреднамеренных предубеждений.
Решая эти цели, этот обзор направлен на то, чтобы предоставить исчерпывающее понимание текущей практики и ограничений в этой области. Результаты направлены на то, чтобы направить будущие усилия по разработке более надежных, обобщаемых и этически обоснованных приложений машинного производства для обнаружения психического здоровья с использованием данных в социальных сетях. В следующих разделах мы сначала рассмотрим методологии и модели, используемые в исследованиях, с последующим анализом общих предубеждений и ограничений. Мы завершим обсуждением лучших практик и рекомендаций по продвижению области.
Эта статья естьДоступно на Arxivпод CC по 4,0 лицензии.
Оригинал