Конец игры догадок? Почему описывает биты данных, оценивая это

Конец игры догадок? Почему описывает биты данных, оценивая это

2 июля 2025 г.

Авторы:

(1) Ахатшам Хаят, кафедра электрической и компьютерной инженерии, Университет Небраски-Линкольна (aahatsham2@huskers.unl.edu);

(2) Мохаммад Рашедул Хасан, кафедра электрической и компьютерной инженерии, Университет Небраски-Линкольна (hasan@unl.edu).

Аннотация и 1 введение

2 метод

2.1 Составление проблем и 2.2 Схемы отсутствия.

2.3. Создание пропущенных значений

2.4 Описание претензии

3 эксперименты

3.1 Результаты

4 Связанная работа

5 Заключение и будущие направления

6 Ограничения и ссылки

Задача отсутствия данных в табличных наборах данных привела к разработке многочисленных методов вменения, широко классифицированных на три категории: статистические методы, методы машинного обучения и более недавно разработанные подходы глубокого обучения.

Статистические методы.Широко используемые методы статистического вменения включают среднее/среднее вменение, регрессионное вменение и алгоритм ожидания максимизации (EM) [10]. Эти подходы к единым вменениям просты, но не смогли охватить неопределенность, присущую вменению пропущенных значений. Чтобы решить эту проблему, Рубин [31] представил метод для множественного вменения, позже утонченного [32,21], который генерирует несколько вмененных наборов данных для отражения неопределенности, что обеспечивает более надежные статистические выводы.

Среди методов множественного вменения, выделяется многомерное вменение цепными уравнениями (мышами) [7]. Мыши итеративно поднимают отсутствующие значения, моделируя каждую пропущенную точку данных отдельно, что делает ее особенно эффективным для обработки MCAR (отсутствует полностью случайным образом) и отсутствует случайно (MAR) данных.

Методы машинного обучения.В сфере машинного обучения было изучено несколько методов вменения, в том числе K-ближайшие соседи (K-NN) [3], традиционные нейронные сети [18,36] и Missforest [37]. K-NN основан на дискриминационном алгоритме, который использует сходство между экземплярами, обычно измеряемыми евклидовым расстоянием, для вменения пропущенных значений. Он предлагает гибкость в обработке как непрерывных, так и категориальных данных. Missforest, используя силу случайных лесов, превосходно в наборах данных со сложными взаимодействиями и нелинейными отношениями, часто превосходя другие методы с точки зрения точности и надежности. Показано, что как K-NN, так и Missforest являются очень эффективными по сравнению с другими сложными методами вменения [13,20].

Методы глубокого обучения.Недавние достижения в области глубокого обучения вдохновили новые методы вменения, такие как денозирующие автоэнкодории (DAE) [41] и генеративные состязательные сети (GAN) [17]. Однако эти подходы часто предполагают полные данные во время обучения или борьбы с наборами данных, содержащих смешанные типы переменных. Генеративные сетки состязательного вменения (усиление) [44] представляют собой значительный прогресс, специально предназначенный для введения отсутствующих данных без необходимости полных наборов данных. Несмотря на их инновационный подход, такие методы, как Gain, часто оценивают более традиционные методы машинного обучения, такие как K-NN с точки зрения производительности [20].

Другие примечательные разработки включают в себя использование разоблачающих автоободеров для множественного вменения (MIDA) [16] из разбитого автооборода [41,23] и применения вариационных автообородеров (VAE) к вменению данных [8,24,27]. Сеть вменения глубокой лестницей (DLIN) [19] объединяет раноизирующие автоматические кодеры с архитектурой лестницы, демонстрируя перспективу при обработке высоких недостающих соотношений и пространственных/временных данных. Аналогичным образом, гетерогенный VAE (HI-VAE) [25] [25] [25] предлагает индивидуальный подход для введения недостающих значений в табличных данных, демонстрируя конкурентоспособную производительность против установленных методов. Подход, специально предназначенный для обмена табличными ненумевыми данными (текстовые и категориальные переменные), предлагается в [5]. Он использует методы глубокого обучения для захвата сложных взаимосвязей между различными столбцами и вменять отсутствующие значения более точно, чем традиционные методы. Интересно, что авторы обнаружили, что во многих случаях более простые линейные модели N-граммы, выполненные наравне с моделями глубокого обучения, требуя меньше вычислительных ресурсов.

5 Заключение и будущие направления

В этой статье мы представили претензии, новый подход, который использует контекстные возможности понимания LLM для вменения данных. Благодаря строгой оценке по различным наборам данных и моделям пропущений, включая MCAR, MAR и MNAR - CLAIM продемонстрировал превосходную точность, превосходя традиционные методы вменения. Эта согласованность в преодолении проблем, связанных с различными типами пропущенных данных, однозначно подтверждает эффективность претензий в широком спектре сценариев, отмечая значительный скачок в области вменения данных.

Надежная производительность претензий по различным механизмам пропавности не только демонстрирует ее широкую применимость и надежность, но также представляет собой отход от традиционных методов вменения. Эти обычные подходы часто демонстрируют ограничения, превосходящие при определенных условиях или с определенными типами данных. Напротив, методология претензии, которая включает в себя вербализацию данных и использование контекстных дескрипторов для вменения, обеспечивает ее искусственность во множестве сценариев и методов данных. Эта адаптивность подчеркивает важность интеграции контекстуализированных моделей естественного языка в процесс вменения данных, предлагая более нюансированное и эффективное решение для распространенной проблемы отсутствующих данных.

Более того, наше исследование использования контекстных нюансированных дескрипторов еще больше подчеркивает потенциал претензии. Привлекая общие знания LLMS и их сложное понимание языка и контекста, мы показали, что тщательно выбранные дескрипторы значительно повышают способность модели обрабатывать недостающие данные. Это не только повышает точность вменения, но и использует присущие LLM сильные стороны, демонстрируя критическую роль контекста в улучшении задач обработки данных.

Опираясь на многообещающие результаты, продемонстрированные претензиями, будущая работа будет направлена ​​на изучение нескольких возможностей для дальнейшего повышения его эффективности и применимости в области вменения данных. Одной из ключевых областей фокусировки станет расширение претензий на обработку более сложных типов данных, таких как данные временных рядов, изображения и неструктурированный текст, для оценки его универсальности и эффективности в работе с различными форматами данных. Кроме того, существует потенциал, чтобы уточнить производительность модели, включив механизмы обратной связи, которые позволяют претендовать на то, чтобы учиться на ее вмене, тем самым повышая точность с течением времени с помощью методов подкрепления обучения.

Другое многообещающее направление включает в себя изучение интеграции претензии с помощью специфичных для домена LLMS. Адаптируя контекстные возможности понимания LLM к конкретным областям, таким как здравоохранение, финансы или наука о окружающей среде, процесс вменения может быть значительно улучшен, что приводит к более точным и значимым вмене данных в этих специализированных контекстах.

6 Ограничения

Несмотря на заметные достижения, представленные претензиями при рассмотрении отсутствующих данных в табличных наборах данных, эта работа имеет несколько ограничений. Во -первых, эффективность претензий по своей природе зависит от качества и широты учебных данных, используемых для разработки основных LLMS. В сценариях, в которых LLM не подвергались воздействию данных, аналогичных конкретному контексту или домену отсутствующей информации, их способность генерировать точные и соответствующие вмены может быть скомпрометирована. Кроме того, подход предполагает, что описательный контекст, предоставленный для пропущенных значений, является достаточно информативным для LLM, чтобы понять и действовать, что не всегда может иметь место. Кроме того, вычислительные требования для обработки больших наборов данных с требованиями, учитывая необходимость взаимодействия со сложными LLM, могут создавать проблемы масштабируемости. Наконец, в то время как претензия показывает обещание в обращении с различными механизмами пропавения, его производительность в высокоспециализированных или нишевых областях, где экспертные знания значительно влияют на интерпретацию данных, еще предстоит полностью изучить.

Ссылки

  1. Abedjan, Z., Golab, L., Naumann, F., Papenbrock, T.: Профилирование данных, Синтез лекции по управлению данными, Vol. 10. Morgan & Claypool (2018).https://doi.org/10.2200/S00878ED1V01Y201810DTM052

  2. Achiam, J., Andrychowicz, M., Beattie, A., Clark, J., Drozdov, N., Ecoffet, A., Edwards, D., Giddings, J., Goldberg, I., Gomez, M., et al.: GPT-4 Технический отчет. Arxiv Preprint arxiv: 2303.08774 (2023)

  3. Batista, G.E., Monard, M.C.: Изучение K-ближайшего соседа в качестве метода вменения. В: Границы в искусственном интеллекте и приложениях. тол. 87, с. 251–260. Его (2002)

  4. Bhatia, K., Narayan, A., de Sa, C., Ré, c.: Tart: модуль трансформатора подключаемой и игры для причинного и агрессии (июнь 2023 г.).https://doi.org/10.48550/arxiv.2306.07536Вhttp://arxiv.org/abs/2306.07536, arxiv: 2306.07536 [CS]

  5. Biessmann, F., Salinas, D., Schelter, S., Schmidt, P., Lange, D.: «Глубокое» обучение для пропущенного вменения стоимостью в таблицах с нечетными данными. В: Материалы 27 -й Международной конференции ACM по управлению информацией и знаниями. п. 2017–2025. CIKM ’18, Ассоциация компьютерной техники, Нью -Йорк, Нью -Йорк, США (2018).https://doi.org/10.1145/3269206.3272005Вhttps://doi.org/10.1145/3269206.3272005

  6. Браун, Т., Манн, Б., Райдер, Н., Суббия, М., Каплан, Дж. Д., Дхаривал, П., Нилакантан, А., Шьям, П., Састри Г., Аскетл, А., Агарвал, С., Герберт-Вус, А., Крюгер, Г., Синтер, Т. C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Grey, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., Amodei, D.: Языковые модели являются учащимися. В кн.: Достижения в системах обработки нейронной информации. тол. 33, с. 1877–1901. Curran Associates, Inc. (2020)

  7. Buuren, S.V., Groothuis-oudshoorn, K.: Мыши: многомерное вменение цепными уравнениями в r. Журнал статистического программного обеспечения 45, 1–67 (2011)

  8. Camino, R.D., Hammerschmidt, C.A., State, R.: Улучшение вменения недостающих данных с помощью глубоких генеративных моделей. Arxiv Preprint arxiv: 1902.10666 с. 1–8 (2019)

  9. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H.W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Raa, A., Barnes, P., Tayasherko, S., N., N.. Prabhakaran, V., Reif, E., Du, N., Hutchinson, B., Pope, R., Bradbury, J., Oustin, J., Isard, M., Gur-Ari, G., Yin, P., Duke, T., Levskaya, A., Ghemawat, S., Dev, Michalews, H., x., v. Fedus, L., Zhou, D., Ippolito, D., Luan, D., Lim, H., Zoph, B., Spiridonov, A., Sepassi, R., Dohan, D., Agrawal, S., Omernick, M., Dai, A.M., Pillai, T.S., Pellat, M., Lewkowycz, A., Morethira, E., Child, R., Kelovov, Leaovov, Le, Leazovo. Zhou, Z., Wang, X., Saeta, B., Diaz, M., Firat, O., Catasta, M., Wei, J., Meier-Hellstern, K., Eck, D., Dean, J., Petrov, S., Fiedel, N.: Palm: масштабирование языкового модели с путями (октябрь 2022)http://arxiv.org/abs/2204.02311, arxiv: 2204.02311 [CS]

  10. Dempster, A.P., Laird, N.M., Rubin, D.B.: Максимальная вероятность от неполных данных через алгоритм EM. Журнал Королевского статистического общества: серия B (методологический) 39 (1), 1–22 (1977)

  11. Dettmers, T., Pagnoni, A., Holtzman, A., Zettlemoyer, L.: Qlora: Эффективное создание квантовых LLM (2023)

  12. Dua, D., Graff, C.: UCI Machine Learning Repository (2017),http: //archive.icsПолемuci.edu/ml

  13. Emmanuel, T., Maupong, T., Mpoeleng, D., Seamong, T., Mphago, B., Tabona, O.: Обследование пропущенных данных в машинном обучении. J Большие данные 8 (1), 140 (2021).https: // doi.org/10.1186/s40537-021-00516-9, epub 2021 27 октября. PMID: 34722113; PMCID: PMC8549433

  14. García-Laencina, P.J., Sancho-Gómez, J., Figueiras-Vidal, A.R.: Классификация шаблонов с отсутствующими данными: обзор. Нейронная компьютер. Приложение 19 (2), 263–282 (2010).https://doi.org/10.1007/S00521-009-0295-6, https://doi.org/10.1007/S00521-009-0295-6

  15. Gimpy, M.: Вменение пропущенного значения в наборе данных с несколькими атрибутами. Инт. J. Comput. Наука Инф. Технологический 5 (4), 1–7 (2014)

  16. Gondara, L., Wang, K.: MIDA: множественное вменение с использованием унизительных автоэкодоров. В кн.: Конференция PACICASASIA по обнаружению знаний и интеллектуальному анализу данных. С. 260–272. Springer (2018)

  17. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., et al.: Генеративные состязательные сети. В: Ghahhramani, Z., Welling, M., Cortes, C., Lawrence, N., Weinberger, K.Q. (ред.) Достижения в системах обработки нейронной информации. тол. 27, с. 2672–2680. Curran Associates, Inc., Montréal, Canada (2014)

  18. Гупта, А., Лам, М.С.: Оценка пропущенных значений с использованием нейронных сетей. Журнал Общества оперативных исследований 47 (2), 229–238 (1996)

  19. Hallaji, E., Razavi-far, R., Saif, M.: Dlin: сеть вменения глубокой лестницы. IEEE Transactions на Cybernetics 52 (9), 8629–8641 (2021)

  20. Jäger, S., Allhorn, A., Biessmann, F.: Эталон для методов вменения данных. Front Big Data 4, 693674 (2021).https://doi.org/10.3389/fdata.2021.693674, PMID: 34308343; PMCID: PMC8297389 повышение точности вменения с помощью контекстуальных крупных языковых моделей 15

  21. Little, R.J., Rubin, D.B.: Статистический анализ с отсутствующими данными, Vol. 793. Джон Уайли и сыновья, 3 изд. (2019)

  22. Little, R.J.A., Rubin, D.B.: Статистический анализ с отсутствующими данными. Джон Уайли и сыновья, Хобокен, 2 Edn. (2002)

  23. Lu, H.M., Perrone, G., Unpingco, J.: Множественное вменение дженоневым автоэкодором с использованием метаморфической истины и вменения обратной связью. Arxiv Preprint arxiv: 2002.08338 (2020)

  24. McCoy, J.T., Krookon, S., Auret, L.: Вариационные автоэнкомоды для пропущенного вменения данных с применением к моделируемой схеме фрезерования. IFAC-Papersonline 51 (21), 141–146 (2018), 5-й семинар IFAC по добыче, минеральной и металльной обработке MMM 2018

  25. Назабал, А., Олмос, П.М., Гахрамани, З., Валера, I.: Обработка неполных гетерогенных данных с использованием VAES. Arxiv Preprint arxiv: 1807.03653 (2018)

  26. OpenAI: GPT-4 Технический отчет (март 2023 г.).https://doi.org/10.48550/arxiv.2303.08774,http://arxiv.org/abs/2303.08774, arxiv: 2303.08774 [CS]

  27. Qiu, Y.L., Zheng, H., Gevaert, O.: Вменение геномными данными с помощью вариационных автооходеров. Gigascience 9 (8), GIAA082 (2020)

  28. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P.J.: Изучение пределов обучения передачи с помощью единого трансформатора текста в текст. Журнал исследований машинного обучения 21 (1), 140: 5485–140: 5551 (январь 2020 г.)

  29. Робертс, А., Раффель, С., Шазир, н.: Сколько знаний вы можете упаковать в параметры языковой модели? В: Труды конференции 2020 года по эмпирическим методам в обработке естественного языка (EMNLP). С. 5418–5426. Ассоциация вычислительной лингвистики, онлайн (ноябрь 2020 г.).https://doi.org/10.18653/v1/2020.emnlp-main.437,https://aclanthology.org/2020.emnlp-main.437

  30. Рубин, Д.Б.: Вывод и отсутствие данных. Biometrika 63, 581–592 (1976).https://doi.org/10.1093/biomet/63.3.581

  31. Рубин, Д.Б.: Множественные вмены в образцах-обследованиях-феноменологический байесовский подход к отсутствию ответа. В кн.: Материалы Секции методов исследований обследования Американской статистической ассоциации. тол. 1, с. 20–34. Американская статистическая ассоциация, Александрия, Вирджиния, США (1978)

  32. Рубин, Д.Б.: Множественное вменение для отсутствия ответа в опросах. John Wiley & Sons, Нью -Йорк, Нью -Йорк (2004)

  33. Schafer, J.L.: Анализ неполных многомерных данных. Chapman & Hall/Crc, Лондон, Великобритания (1997)

  34. Schelter, S., Biessmann, F., Januschowski, T., Salinas, D., Seufert, S., Szarvas, G.: On Challenges in Machine Learning Management. IEEE Data Eng. Бык 41 (4), 5–15 (2018),http://sites.computer.org/debull/a18dec/p5.pdf

  35. Schelter, S., Rukat, T., Biessmann, F.: Jenga - основа для изучения влияния ошибок данных на прогнозы моделей машинного обучения. В: Velegrakis, Y., Zeinalipour -Yazti, D., Chrysanthis, P.K., Guerra, F. (Eds.) Материалы 24 -й Международной конференции по расширению технологии базы данных, EDBT 2021, Никосия, Кипр, 23 - 26 марта, 2021 год. Pp. 529–534.OpenProceedings.org(2021).https://doi.org/10.54441/002/edbt.2021.63,https://doi.org/10.5441/002/edbt.2021.63

  36. Sharpe, P.K., Solly, R.: Работа с отсутствующими значениями в диагностических системах на основе нейронной сети. Нейронные вычисления и приложения 3 (2), 73–77 (1995)

  37. Стеховен, Д.Дж., Бюльманн, П. Биоинформатика 28 (1), 112–118 (2012)

  38. Stoyanovich, J., Howe, B., Jagadish, H.V.: Ответственное управление данными. Материалы ВОЛДБ. 13, 3474–3488 (2020).https://doi.org/10.14778/3415478.3415570

  39. Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., Rodriguez, A., Joulin, A., Grave, E., Lalme, G.http://arxiv.org/ABS/2302.13971, arxiv: 2302.13971 [CS]

  40. Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., Bikel, D., Blecher, L., Ferrer, C.C., Chen, M., Cucurul W., Fuller, B., Gao, C., Goswami, V., Goyal, N., Hartshorn, A., Hosseini, S., Hou, R., Inan, H., Kardas, M., Kerkez, V., Khabsa, M., Kloumann, I., Korenev, A., Koura, P.S., Lachaux, M.A., Leavil, Leavil, Leavil, Leavil, Leavil, Lae., Lea. Liskovich, D., Lu, Y., Mao, Y., Martinet, X., Mihaylov, T., Mishra, P., Molybog, I., Nie, Y., Poulton, A., Reizenstein, J., Rungta, R., Saladi, K., Schelten, A., Silva, Smith, R., R., R., R., R., R., R., R., R., R., R., R., Tan. Тейлор Р., Уильямс А., Куан, Дж. Х., Сюй, П., Ян, З., Заров, И., Чжан, Ю., Фан, А., Камбадур, М., Наранг С., Родригес, А., Стоужник, Р., Эдунов, С., Скилом, Т.

  41. Винсент П., Ларошель Х., Бенгио Ю., Манзагол, П.А.: извлечение и сочинение надежных функций с двойными автоходорами. В кн.: Материалы 25 -й Международной конференции по машинному обучению. С. 1096–1103 (2008)

  42. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., Zhou, D.: Побуждение в цепочке мыслей вызывает рассуждения в моделях крупных языков (январь 2023).https://doi.org/10.48550/arxiv.2201.11903, http: //arxiv.org/abs/2201.11903, arxiv: 2201.11903 [CS]

  43. Ян К., Хуанг Б., Стоянович Дж., Шелтер С.: Справедливая инструментация трубопроводов предварительной обработки для машинного обучения. В кн.: Материалы семинара по аналитике данных Humanin-the-петли (Hilda’20). ACM (2020).https://doi.org/10.1145/3398730.3399194

  44. Yoon, J., Jordon, J., van der Schaar, M.: Получитель: вменение отсутствующим данным с использованием генеративных состязательных сетей. В кн.: Международная конференция по машинному обучению. С. 5689–5698. PMLR (2018)

  45. Yoon, J., Jordon, J., van der Schaar, M.: Полученность: вменение отсутствующим данным с использованием генеративных состязательных сетей (2018)

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE