Stabilizing Bandits using Regularization: Precise Regret and A Quantitative Central Limit Theorem
使用正则化稳定赌博机:精确遗憾与定量中心极限定理
发表机构 * Department of Statistics, Rutgers University(罗切斯特大学统计系) ; Indian Statistical Institute, Kolkata(加尔各答印度统计研究所)
专题命中 其他LLM :研究赌博机算法稳定性,与LLM弱相关。
AI总结 本文提出一种精细的稳定性条件,证明正则化随机镜像下降算法满足该条件,并推导出自适应采样下经验奖励估计的非渐近Berry-Esseen界、匹配的遗憾上下界,以及抗腐败下的渐近正态性,同时揭示正则化是有效推断的必要代价。
Comments Updated rate of convergence and precise regret in version 2