natural-language-processing tech-stories large-language-models data-preprocessing claim-model data-imputation contextual-data-analysis missing-data-mechanisms tabular-data

Это не только то, чего не хватает, это то, как вы это говорите: формула победы претензий

2 июля 2025 г.

Авторы:

(1) Ахатшам Хаят, кафедра электрической и компьютерной инженерии, Университет Небраски-Линкольна (aahatsham2@huskers.unl.edu);

(2) Мохаммад Рашедул Хасан, кафедра электрической и компьютерной инженерии, Университет Небраски-Линкольна (hasan@unl.edu).

Таблица ссылок

Аннотация и 1 введение

2 метод

2.1 Составление проблем и 2.2 Схемы отсутствия.

2.3. Создание пропущенных значений

2.4 Описание претензии

3 эксперименты

3.1 Результаты

4 Связанная работа

5 Заключение и будущие направления

6 Ограничения и ссылки

3 эксперименты

Мы провели серию экспериментов для систематической оценки эффективности претензий в решении вопросов исследования, представленных в разделе 1. Наш критерий валидации для эффективности претензии заключался в выполнении постмайтации предварительно обученных LLMS, созданных с отсутствующими контекстными наборами в разделе «Пропущенные задачи» для задач классификации. Мы сосредоточились на трех типах механизмов отсутствия: MCAR, MAR и MNAR.

Наборы данныхПолем Мы оценили производительность претензии, используя семь реальных многомерных наборов классификации из репозитория UCI [12]. Подробная информация об этих наборах данных представлена в Приложении.

Методы базового вменения.Наш подход сравнивался с широким спектром часто используемых методов базового вменения, охватывающих методы отдельного вменения (SI) и множественного вменения (MI), не ML и ML-методы, а также дискриминационные и генеративные ML-подходы.

Методы SI включали среднее вменение с использованием функционального среднего значения (не-мл), Необычные соседи (K-NN) [3] (ML: дискриминационная), алгоритм на основе дерева с использованием MissForest [37] (ML: дискриминационная) и глубокая генеративная состязательная сеть для вменения с использованием усиления (Генеративные сетки состязательного вменения) [45] (45] (45] (45] (45] (45] (45] (45]ML: Generative) Используемый метод MI был мышами (множественное вменение цепными уравнениями) [22] (ML: дискриминационная)

Экспериментальные настройки.Настройки гиперпараметра для различных методов вменения и LLM, используемых в наших экспериментах, подробно описаны ниже.

Гиперпараметры для методов базового вменения.Для усиления мы придерживались гиперпараметров, указанных в исходной публикации, устанавливая α до 100, размер партии до 128, скорость намека на 0,9 и количество итераций до 1000 для оптимальной производительности. Missforest и мыши были настроены с их соответствующими параметрами по умолчанию, как это предусмотрено в их реализациях PYPI [2]. Для K-NN мы выбрали k = 5 и евклидовую меру расстояния на основе литературы, предполагая, что эта конфигурация обеспечивает превосходную производительность [15].

Предварительно обученный LLM.Мы использовали модель Llama 2 7 миллиардов параметра [40], настраивая ее с помощью метода Qlora, эффективного к параметрам [11]. Настройки были r = 16, α = 64, отступление = 0,1 с типом задачи, установленным для «cusal_lm». Скорость обучения составляла 2E-4, используя оптимизатор «PageG_ADAMW_32BIT».

Эксперименты проводились с размером партии 4 в 50 эпохах, учитывая ограничения памяти во время точной настройки. GPU Tesla A40 (48 ГБ ОЗУ) использовали для распределенного обучения. Для оценки мы использовали 20% случайно отобранных экземпляров каждого набора данных. Модели были оценены пять раз, сообщая как средняя производительность, так и стандартное отклонение.

Fig. 2: [RQ1]: Comparison of CLAIM against baseline imputation methods for three missingness patterns, i.e., MCAR. MAR, and MNAR.

3.1 Результаты

На рисунке 2 показаны экспериментальные результаты для семи наборов данных, где мы сравнивали претензии против существующих методов вменения. Метрики производительности для LLMS, настраиваемые на полностью полных наборах данных (без каких-либо отсутствующих значений, поэтому вменение не было необходимо) было включено для сравнения. Этот подход определяет эффективность претензий, предоставляя ссылку на базовые характеристики, предлагая более четкий взгляд на выгоды, предоставляемые претензиями по сравнению с традиционными методами вменения.

[RQ1]: Насколько эффективна претензия в наведении недостающих значений между различными механизмами недостания (MCAR, MAR и MNAR), и как это сравнивается с существующими методами вменения с точки зрения точности и надежности в различных наборах данных и сценариях отсутствующих данных?

Макар: Претензия продемонстрировала превосходную точность в введении пропущенных значений на все наборы данных по сравнению с методами базового вменения. Его эффективность в соответствии с предположением MCAR, где пропавность не зависит от каких -либо данных, предполагает, что претензия эффективно использует контекстную информацию, присущую набору данных для вменения. Эта эффективность особенно очевидна в его способности значительно закрыть разрыв в результате эффективности полностью полных наборов данных (без вменения), демонстрируя ее эффективность

Мар:В соответствии с MAR, где пропавность зависит от наблюдаемых данных, адаптируемость претензии еще больше подчеркивается. Он превосходит другие методы с значительным маржом, указывая на его мастерство в использовании доступных точек данных для точного прогнозирования пропущенных значений.

Мнар: Сценарий MNAR, характеризующийся пропавностью, который зависит от ненаблюдаемых данных, создает наибольшую проблему. Здесь эффективность претензий остается заметно превосходящей традиционные методы вменения. Эта устойчивость перед лицом наиболее сложного механизма недостания иллюстрирует потенциал претензии для эффективного смягчения предубеждений, введенных в результате пропущенности MNAR, используя способность модели Llama 7B для вывода отсутствующей информации из сложных моделей.

Чтобы выяснить превосходные показатели претензии по сравнению с традиционными методами базового вменения, мы углубились в его результатыТри особенно сложных набора данных: Идентификация стекла, семена и вино. Эти наборы данных были выбраны из -за относительно более низкой производительности, демонстрируемой LLM при использовании полностью полных версий наборов данных, подчеркивая их сложность и строгую основу для тестирования, которые они обеспечивают для оценки эффективности претензии.

В таблице 1 представлен подробный сравнительный анализ. Для набора данных идентификации стекла, где LLM достиг точности только 69,40% с полным набором данных, заявление продемонстрировало значительное преимущество. Он превзошел лучший базовый метод (KNN, который достиг 52,40% точности) с значительным отрывом в 7,2%. Этот разрыв в производительности подчеркивает надежность претензий и его способность эффективно обрабатывать недостающие данные в сложных наборах данных.

Задача обостряется с набором данных семян, в котором претензия превзошла максимальный базовый метод (мыши) на 4,2%. Это дополнительно иллюстрирует превосходство претензии в управлении пропущенными данными, даже в наборах данных, где базовая производительность LLM не является оптимальной.

Table 1: Comparative performance of CLAIM versus leading imputation methods across three challenging datasets. The best performing baseline imputation method names are in bold.

Набор данных вина продемонстрировал аналогичную тенденцию: претензия превышала лучшую базовую производительность с краем 2,4%. Примечательно, что пробелы в результате производительности между претензией и наиболее эффективными базовыми методами относительно скромны в условиях MAR-2%, 3%и 1,2%для идентификации стекла, семян и вина, соответственно. Это наблюдение предполагает, что, хотя предсказуемость пропавности из наблюдаемых данных в сценариях MAR предлагает некоторые рычаги для традиционных методов вменения, утверждает все же сохраняет преимущество производительности.

Сценарий MNAR, характеризующийся наиболее сложной моделью пропавения, выявил четкое преимущество претензии. Во всех трех наборах данных претензии не только удалось превзойти лучшие базовые методы, но и сделали это с замечательным повышением производительности 12,4%, 7,6%и 10%для идентификации стекла, семян и вина, соответственно. Это существенное улучшение подчеркивает искусственность претензии по поводу навигации по тонкостям пропущенности MNAR, еще больше укрепляя его статус как высокоэффективный инструмент для обработки различных сценариев недостающих данных с апломбом.

Обсуждение на RQ1.Превосходная точность претензии в разных моделях отсутствия недостания и наборов данных однозначно подтверждает его эффективность в различных сложных сценариях, тем самымадресация RQ1.Это согласованное сверхпроформирование не только подчеркивает его полезность, но и иллюстрирует значительные преимущества интеграции контекстуализированных моделей естественного языка в процесс вменения данных. Ярко выраженные улучшения точности, наблюдаемые в сложных наборах данных, таких как наборы данных идентификации стекла и семян, указывают на явное преимущество по сравнению с традиционными методами вменения, которые часто колеблются в таких условиях.

АНадежная производительностьпретензий, очевидно по механизмам пропавших пропусков MCAR, MAR и MNAR, демонстрирует егоширокая применимость и надежность.Это отмечает отход от обычных методов, которые могут хорошо работать только в ограниченных условиях или с конкретными типами данных [20]. Методология претензии, которая включает в себя вербализацию данных и использование контекста релевантных дескрипторов для вменения, обеспечивает их искусственность в различных сценариях и методах данных.

Более того, минимальные различия в эффективности претензии в разных итерациях еще больше подчеркивают его стабильность и надежность в качестве метода вменения. Такая согласованность необходима для реальных приложений, где качество вменения напрямую влияет на эффективность последующего анализа данных. Способность претензий поддерживать низкую маржу ошибки последовательно подчеркивает его потенциал в качестве решения для вменения данных, предлагая как точность, так и надежность.

Fig. 3: [RQ2]: Impact of different descriptors for missingness in CLAIM on MCAR datasets.

[RQ2]:Как выбор формулирования для дескрипторов пропавших пропавших в претензии влияет на производительность нижестоящих задач на основе LLM?

Первоначально мы использовали контекстные дескрипторы для пропущенных значений, что приводило к уникальным фразам для различных функций в наборе данных. Чтобы решить RQ2, мы стремились определить, будет ли использование равномерного, но контекстуально релевантного, дескриптор для всех функций предложить сопоставимые преимущества. С этой целью мы экспериментировали с тремя последовательными дескрипторами: «NAN», «HOMING VALUE» и «значение не записано». Эти эксперименты, сосредоточенные на сценарии MCAR, стремились выяснить, более ли полезно использовать контекстуальные нюансированные дескрипторы или общий дескриптор является адекватным для использования общих знаний LLMS для управления пропущенными значениями в наборах данных.

Экспериментальные результаты (рис. 3) освещают влияние нехватки фразы данных на эффективность LLMS в решении таких ситуаций. Результаты показывают отдельную шаблон: общие дескрипторы, такие как «NAN», последовательно работают хуже, чем специфичные для контекста дескрипторы, предназначенные для каждой функции и набора данных. Среди трех проверенных дескрипторов были некоторые различия в производительности. Как «NAN», так и «отсутствующая стоимость» превзошли «значение, не записанное», при этом «отсутствующая стоимость» достигает наилучших результатов в большинстве случаев среди статических дескрипторов.

Высшая производительность дескрипторов, специфичных для функций, указывает на то, что LLMS лучше интерпретируется и управляет отсутствующими данными, когда они описываются таким образом, что точно отражает контекст недостающей информации. Например, вроде дескриптора«Количество яблочной кислоты отсутствует для этого образца вина»Позволяет LLM более эффективно понимать и устранять отсутствующую точку данных, чем более общий дескриптор, как«Уровень яроновой кислоты в вине - это НАН».Полем

Обсуждение на RQ2.Результаты, связанные с RQ2, подчеркивают важность контекста во взаимодействии между LLM и отсутствующими данными. Предпочтение для конкретных контекстных дескрипторов по сравнению с общими, вероятно, возникает из-за способности LLM использовать его обширное обучение по различным языковым использованию и контекстам. Когда отсутствующие данные описываются таким образом, что соответствует конкретному контексту функции, LLM лучше позиционируется для применения своего обширного хранилища знаний, чтобы вывести или генерировать подходящие вмены. Эта эффективность уменьшается с использованием общих метков, которые предлагают минимальную контекстную информацию для LLM.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.

[2] https://pypi.org/

Оригинал

Это не только то, чего не хватает, это то, как вы это говорите: формула победы претензий

Таблица ссылок

3 эксперименты

3.1 Результаты

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Строительный блок ИИ, о котором вы никогда не слышали (но используйте каждый день)

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

Как я сокращаю задержку рабочего процесса агента в 3-5 раз без увеличения затрат на модель

Categories