2605.17238
2026-05-19
cs.LG
stat.ML
Learning in Position-Aware Multinomial Logit Bandits: From Multiplicative to General Position Effects
基于位置感知的多项逻辑带宽学习:从乘法位置效应到一般位置效应
Xi Chen, Shibo Dai, Jiameng Lyu, Yuan Zhou
发表机构
*
Leonard N. Stern School of Business, New York University(纽约大学勒纳商学院)
;
Qiuzhen College, Tsinghua University(清华大学齐臻学院)
;
Department of Management Science, School of Management, Fudan University(复旦大学管理学院管理科学系)
;
Yau Mathematical Sciences Center & Department of Mathematical Sciences, Tsinghua University(清华大学尤数学科学中心及数学科学系)
AI总结
本文研究了动态联合品类选择与排列问题,其中每个产品的吸引力取决于其内在吸引力和显示位置,在多项逻辑(MNL)选择框架下。研究从乘法位置效应模型扩展到一般位置效应模型,为两种模型设计了基于轮次的学习算法,并建立了首个最优后悔分析。此外,这些基于轮次的算法为现代平台提供了必要的实时操作。对于乘法模型,开发了具有截断机制的交叉位置成对最大似然估计器,并证明算法P2MLE-UCB达到$ ilde{O}(\sqrt{NT})$的后悔,匹配下限并弥补了先前基于周期的分析留下的$\sqrt{K}$差距。对于一般模型,建立了最小最大下界并提出了GP2-UCB算法,具有匹配的上界。此外,设计了基于Dinkelbach方法和最大权二分图匹配的高效子程序,用于每轮联合品类和排列优化。在合成数据和Expedia数据集上的数值实验表明,我们的算法在性能上始终优于最先进的基准。