Старая статистика, новые трюки: как PCIC основывается на десятилетиях рекомендационных исследований

Старая статистика, новые трюки: как PCIC основывается на десятилетиях рекомендационных исследований

13 августа 2025 г.

Аннотация и 1 введение

  1. Литературный обзор
  2. Модель
  3. Эксперименты
  4. Путешествие по развертыванию
  5. Будущие направления и ссылки

2 литературно -обзор

Одна из ранних сообщенных работ для покупки его снова пришла от Bhagat et al. [2] Для данных покупателей Amazon еще в 2018 году. В этой работе авторы моделируют схему повторного потребления продуктов с использованием модифицированной модели Пуассон-Гамма (MPG). Модель MPG построена по более простой модели PG, которая предполагает повторную покупку элемента на уровне клиента, чтобы быть обладающим процессом с гамма-ранее для ставки покупки 𝜆. Они также предоставляют две простые модели на уровне уровня предметов клиента, а именно. Повторите вероятность клиента (RCP) и агрегированное распределение времени (ATD), которое работает в качестве базовой линии для модели MPG в экспериментах. Другая работа также сообщила Dey et al. [6] в 2016 году, но это было больше для захвата повторного поведения покупки в течение более длительных времени для, например, от нескольких недель до месяцев. Они использовали модель PG для захвата повторной покупки в качестве базы, а затем использовали модель Dirichlet для прогнозирования вероятностей покупки предметов в категории.

Помимо вышеуказанной работы, мы изучали другие связанные работы в домене повторной покупки. Хотя было не так много, но все же некоторые заметные работы в области моделирования покупки клиентов были выполнены исторически (начиная с 60 -х годов), где могут быть приняты вдохновение моделирования событий покупки клиентов с использованием статистических распределительных предположений. После того, как математическое выражение неизвестных параметров распределения тщательно получено, можно вычислить их оценки, используя данные, вызывая простые библиотеки математики / пользовательские функции, определенные пользователем и т. Д. Несколько таких работ включают в себя модели отрицательного биномиального распределения (NBD), обсуждаемые в Enrehberg [1] и Grahn [9], более позднее, для просмотра модели Erlang-2-gammma, обсуждаемых чатфилд и Goodhard [3], и это было интересным, на 3-й рабочей модели. Fader и Hardie на альтернативных версиях NBD Model Viz. Pareto-NBD, бета-геометрический NBD [? ] [7] и т. Д., Хотя эти подходы из-за его сильных фундаментов могли повлиять на многие более поздние работы, основанные на статистических распределениях (например, [2]), но все же они были в основном полезны для решения некоторых популярных маркетинговых проблем (часто называемых маркетинговыми науками), такие как прогнозирование вероятностей покупок в отношении клиентской жизни, связанные с ними, связанными с такими проблемами, связанными с клиентской, связанной с такими проблемами, связанными с клиентом, связанными с клиентской жизнью, в том числе и в предсказании, связанном с такими проблемами, связанными с такими проблемами. Общим способом, и решения часто используются для выбора подходящей аудитории, которой должны быть благополучия политики удержания. Когда представление о поведении категории/предмета гостя входит в картину (например, аналогичные предметы, купить снова и т. Д.), Мы не должны ограничиваться такими подходами. Скорее использование этих подходов в качестве сигналов и применение дополнительных слоев обучения с некоторым надзором (если возможно) интуитивно было бы положительным шагом.

Доступно несколько литературных систем, которые имеют способности рекомендовать личный вкус клиента или пользователя по продуктам. Одним из старых примечательных является проект Grouplens [16], от Konstan et al. На данных новостей Usenet в конце 90 -х годов, в которых использовался подход к KNN на основе пользователя (пользовательский клейкий) совместную фильтрацию для рекомендации персонализированных статей. Позже, еще один известный интересный подход, с которым мы столкнулись в домене NBR, назывался факторизованной персонализированной цепью Маркова (FPMC) [19], от Rendle et al. В 2010 году. В этой работе используется комбинация двух популярных подходов для решения проблемы NBR, а именно. Матрица Факторизация (MF), которая отражает вкус пользователя путем фактора, факторизируя наблюдаемую пользовательскую матрицу и сети Marokov (MC), которые отражают последовательное поведение пользователя, использующего графики перехода для прогнозирования следующего действия. Другие подобные работы включают в себя He et al. об алгоритмах последовательных рекомендаций [11] в 2016 году и еще один [10] в 2018 году, который основан на подходе [19]. Другой подход использования временной динамики на алгоритмах рекомендаций был принят Кореном [17] в 2009 году, о котором стоит упомянуть в этом контексте. Наша работа, безусловно, считает, что временные сигналы важны, но мы приняли другой подход, в отличие от интеграции его непосредственно с современными алгоритмами рекомендаций (а именно MF или MC), как это сделано [19], [11], [10] или [17]. Мы рассматривали или смоделировали его как отдельный сигнал и применяем контролируемое обучение, чтобы удовлетворить нашу проблему.

Совсем недавно, с популярностью приложений, основанных на нейронных сетях, многие другие параллельные и последующие работы использовали повторяющуюся нейронную сеть или LSTM или трансформатор для более эффективного захвата схемы повторной покупки. Более поздняя работа Hu et al. Вы называемый SETS2SETS [12] имеет энкодер, который отображает набор элементов с каждого предыдущего временного шага на вектор, в то время как декодер использует механизм внимания на основе наборов для декодирования набора элементов с каждого последующего шага времен с векторами. Этот подход превосходит несколько современных методов. Другая работа, проделанная Hu et al. называется Tifuknn [13] в 2020 году, подтверждает более простой метод, который превосходит даже подходы на основе RNN, когда речь идет о NBR. Он утверждает, что персонализированная частота предметов (PIF) предоставляет критические сигналы для NBR, но существующие методы, включая RNN, не могут его захватить. Их решение - метод KNN на основе частоты. Следует отметить, что мы также реализуем рейтинг межкатегорий продуктов, где частота предметов является ключевым сигналом, но наша реализация зависит от функций, полученных от покупок гостей, в то время как Tifuknn зависит от понимания аналогичных гостей, использующих K-ближайшие соседей. Другой подход RNN, разработанный Yu et al. называется Dream [21] в 2016 году, где входной слой состоит из нескольких представлений корзины, за которыми следует операция объединения на предметах, чтобы получить представление корзины. Динамическое представление клиента получено в скрытом уровне, а выходной слой отображает оценки клиента по всем пунктам. Подход Ying et al. называется Shan [20], константы двухэтапных слоев внимания называют последовательные иерархические слои внимания. Первый слой отражает долгосрочное поведение клиента, за которым следует второй слой, который представляет собой композицию длительного и краткосрочного поведения. Наконец мы исследуем подход Ren et al. Названный RepeatNet [18] разработал в 2019 году. Они захватывают повторное потребление, включив уникальный механизм повторного эксплуатации в RNN, который состоит из кодера и 2 декодеров, чтобы узнать вероятность рекомендации для каждого элемента в двух режимах, а именно. Повторите и исследуйте.

Капур и соавт. [15] В 2014 году, чтобы предсказать время возврата клиента. Они предложили структуру для оценки факторов, которые влияют на возврат клиентов для веб -служб, используя модель пропорциональной опасности Кокса [5]. Эта модель может включать несколько ковариат. По сравнению с базовыми методами регрессии и классификации модель на основе опасности работает лучше в прогнозировании времени возврата пользователей и классифицировала пользователей по прогнозируемому времени возврата. Помимо этой работы, они также создали модель полумарка [14], которая предсказывает, когда пользователи вернутся к знакомым элементам. Модель учитывает скрытые психологические факторы, такие как сенсибилизация и скука, которые возникают, когда те же элементы неоднократно потребляются.

Хотя мы отметили, что знания из существующих исследований, которые были проведены в домене NBR, но, как наилучшие наши знания, наш подход имеет свою уникальность, и, по сравнению с многими из вышеперечисленных решений в качестве базовых, мы видели многообещающие результаты. Наш подход отражает важность моделей последовательностей, рассматривая серии временных районов в качестве функции. Он также принимает успех подхода на основе опасности и считает его неотъемлемой частью решения. Кроме того, он заботится о PIF, чтобы генерировать рекомендации на уровне категории до уровня предмета, что было проблемой для традиционных RNN. Кроме того, он способен захватывать сложные (нелинейные) отношения между всеми сигналами с помощью простого использования нейронной сети FC.

Авторы:

(1) Амит Панде, Data Sciences, Target Corporation, Бруклин Парк, Миннесота, США (amit.pande@target.com);

(2) Кунал Гош, Data Sciences, Target Corporation, Бруклин Парк, Миннесота, США (kunal.ghosh@target.com);

(3) Парк Ранкинг, Data Sciences, Target Corporation, Бруклин Парк, Миннесота, США (Rancyung.park@target.com).


Эта статья естьДоступно на ArxivПод атрибуцией-Sharealike 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE