natural-language-processing tech-stories large-language-models data-preprocessing claim-model data-imputation contextual-data-analysis missing-data-mechanisms tabular-data

Претензия: модель контекстуального языка для точного вменения отсутствующих табличных данных

2 июля 2025 г.

Авторы:

(1) Ахатшам Хаят, кафедра электрической и компьютерной инженерии, Университет Небраски-Линкольна (aahatsham2@huskers.unl.edu);

(2) Мохаммад Рашедул Хасан, кафедра электрической и компьютерной инженерии, Университет Небраски-Линкольна (hasan@unl.edu).

Таблица ссылок

Аннотация и 1 введение

2 метод

2.1 Составление проблем и 2.2 Схемы отсутствия.

2.3. Создание пропущенных значений

2.4 Описание претензии

3 эксперименты

3.1 Результаты

4 Связанная работа

5 Заключение и будущие направления

6 Ограничения и ссылки

АбстрактныйПолем В этой статье представлена контекстуальная языковая модель для метода точного вменения (претензии), новой стратегии, которая использует обширные возможности знаний и рассуждения предварительно обученных крупных языковых моделей (LLMS) для решения пропущенных задач данных в табличных наборах данных. В отличие от традиционных методов вменения, которые в основном полагаются на численные оценки, претензия использует контекстные релевантные дескрипторы естественного языка для заполнения пропущенных значений. Этот подход преобразует наборы данных в контекстуализированные форматы естественного языка, которые по своей природе более выровнены с возможностями LLMS, тем самым облегчая двойное использование LLMS: во-первых, для создания пропущенных дескрипторов стоимости, а затем для тонкой настройки LLM на обогащенном наборе данных для повышения производительности в Downtream Tasks. Наши оценки в разных наборах данных и моделях пропущенности показывают превосходную производительность претензии по сравнению с существующими методами вменения. Кроме того, наше исследование эффективности специфичных для контекста и общих дескрипторов для пропущенных данных подчеркивает важность контекстуальной точности в повышении производительности LLM для вменения данных. Результаты подчеркивают потенциал претензии для заметного повышения надежности и качества анализа данных и моделей машинного обучения, предлагая более нюансированное и эффективное решение для обработки отсутствующих данных.

1 Введение

'Хорошо! Я часто видел кошку без улыбки, - подумала Алиса; ‘Но улыбка без кошки! Это самая любопытная вещь, которую я когда -либо видел за всю свою жизнь! »
Льюис Кэрролл, приключения Алисы в Стране Чудес (1865)

Необывающий пример реального мира того, как контекстная оценка отсутствующих данных может бросить вызов реальности и поставить под угрозу целостность нижестоящих задач, подчеркивается в [35]. В этой учетной записи описывается сценарий, в котором модель прогнозного машинного обучения (ML), разработанная для обработки табличных демографических данных, включая возраст людей, сталкивались с проблемами из -за отсутствующих возрастных записей. Используемая стратегия вменения включала в себя замену пропущенных возрастных значений нулей - общий дефолт для инициализации целых чисел на нескольких языках программирования. Этот подход непреднамеренно привел модель к классификации людей с неопределенным возрастом как «малышей», что приводит к аберрантному поведению модели. Многочисленные случаи, повторяющие этот тип предвзятости в моделях ML, в результате контекста вменения отсутствующих данных, сообщается в литературе [35,14,38,43,34,1].

Эти инциденты вызывают критическое исследование более сложных и реалити-методов для оценки недостающих табличных данных. В то время как простых статистических замены, таких как среднее или медиана, может быть достаточно, при предположении нормального распределения, прогнозирующие методы ML, такие как K-ближайшие соседи (K-NN), случайный лес (RF) или даже генеративные модели на основе глубокого обучения (DL). Эти методы ML/DL обычно предполагают, что отсутствие в атрибуте коррелирует с наблюдаемыми значениями в других функциях. Однако это поднимает фундаментальные вопросы: что, если отсутствующие данные не зависят от наблюдаемых значений? Или если на отсутствие данных влияет исключительно ненаблюдаемые переменные? В сценариях, где недостание не связано с внешними факторами или другими наблюдаемыми данными, задача тогда становится то, как точно оценить недостающие значения. На сегодняшний день ни один метод вменения не оказался универсально эффективным, подчеркивая сложность и разнообразие сценариев отсутствующих данных, встречающихся на практике [20].

В этом документе вводится новый подход, использующий возможности предварительно обученных крупных языковых моделей (LLMS) [6,9,39,26], для инновационного решения проблемы отсутствующих данных в табличных наборах данных. Наш методМодель контекстуального языка для метода точного вменения (претензия), значительно расходится от традиционных методов вменения, которые преимущественно оценивают пропущенные значения с помощью численных методов. Вместо этого претендует на то, чтобы использовать обширные знания LLMS [28,29] и рассуждать [9,42,4] вдвойной процессПервоначально он использует LLM для генерации контекстных релевантных дескрипторов естественного языка для пропущенных значений, эффективно преобразование наборов данных в контекстуализированные форматы естественного языка. Это преобразование имеет решающее значение, так как оно выравнивает данные с неотъемлемыми сильными сторонами LLM, что делает их более поддающимися их возможностям обработки.

Впоследствии эти обогащенные наборы данных служат основой для тонкой настройки LLM для повышения производительности в нижестоящих задачах (например, классификация), демонстрируя уникальное и эффективное использование языковых моделей за пределами их обычных приложений. Включая контекстные дескрипторы для отсутствующих данных, утверждение не только рассматривает изменчивость и специфичность, присущие данным в разных областях, но также и искусно ориентируются на сложности, введенные различными механизмами пропавения. Благодаря этой инновационной интеграции LLMS в процесс вменения данных, утверждение направлено на предоставление более тонкого, точного и надежного метода восстановления данных, необходимый для улучшения качества последующего анализа данных и задач машинного обучения.

Чтобы оценить эффективность претензии, мы проводим всеобъемлющий анализ в трех стандартных механизмах отсутствующих данных-MCAR (отсутствует совершенно случайно), MAR (отсутствует случайным образом) и MNAR (отсутствует не случайным образом) [30] и сравнение претензий с широким диапазоном существующих методов вменения, охватывающих отдельные и множественные методы вменения, не ML и методы ML и дискриминационные и генеративные методы ML. Наши эмпирические исследования, направленные на оценку воздействия претензий на задачи классификации на основе LLM, руководствуются двумя основными вопросами исследования (RQS):

- [RQ1]:Насколько эффективна претензия в наведении недостающих значений между различными механизмами недостания (MCAR, MAR и MNAR), и как это сравнивается с существующими методами вменения с точки зрения точности и надежности в различных наборах данных и сценариях отсутствующих данных?

- [RQ2]:Как выбор формулирования для дескрипторов пропавших пропавших в претензии влияет на производительность нижестоящих задач на основе LLM?

Основной вклад этой работы многогранны. Во -первых, претензия представляет собой отход от традиционных методов вменения путем использования LLMS для генерации контекстных дескрипторов для отсутствующих данных, установив новый эталон вменения данных. Во -вторых, благодаря обширной эмпирической оценке мы демонстрируем превосходную производительность претензии по сравнению с существующими методами в различных наборах данных и моделях отсутствия. Наконец, наш анализ специфичных для контекста и общих дескрипторов дает ключевую информацию об оптимизации производительности LLM для задач вменения, подчеркивая значимость контекстуальной точности. В совокупности эти вклады продвигают методы предварительной обработки данных и открывают новые пути для применения LLMS в сложных задачах по науке о данных.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.

Оригинал

Претензия: модель контекстуального языка для точного вменения отсутствующих табличных данных

Таблица ссылок

1 Введение

Recent Post

Бенчмаркинг LLM восприимчивость к генерации уязвимого кода с помощью инверсии модели с несколькими выстрелами

Как ускорить свой трубопровод TensorFlow TF.Data

Превратить обычный кошелек в умную учетную запись с EIP 7702

Что современная физика говорит о реальности

Prop Firm Match Actions Пять трейдеров Red Flags должны рассмотреть, прежде чем совершать

Categories