Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference
基于LLM的A/B测试的统计基础:用于人类因果推断的替代指标框架
发表机构 * Spotify USA, Inc.(Spotify美国公司)
AI总结 提出替代指标理论框架,证明在弱于分布等价条件下,校准LLM输出可识别平均处理效应,并分析随机性带来的偏差与方差。
基于LLM的A/B测试的统计基础:用于人类因果推断的替代指标框架
发表机构 * Spotify USA, Inc.(Spotify美国公司)
AI总结 提出替代指标理论框架,证明在弱于分布等价条件下,校准LLM输出可识别平均处理效应,并分析随机性带来的偏差与方差。
自主AI代理的抗博弈保险合约:策略证明的通行费机制设计
发表机构 * Hao-Hsuan Chen(何浩轩)
AI总结 本文扩展了时间一致精算运行时的框架,使运营商策略化,刻画了自主AI代理保险合约的五种攻击空间,并证明了精算运行时的抗博弈性,通过新合约条款实现激励兼容。
Comments 29 pages. Companion to arXiv:2605.26508 (Paper A, foundations) and arXiv:2605.25632 (Paper B, empirical)
过驱动飞行器的可解释控制效能学习与非线性控制分配集成方法
发表机构 * University of Stuttgart, Faculty of Aerospace Engineering and Geodesy, Institute of Flight Mechanics and Control (iFR)(斯图加特大学航空航天工程与大地测量学院飞行力学与控制研究所)
AI总结 提出一种基于稀疏非线性动力学辨识的学习控制效能映射方法,结合在线自适应机制,实现过驱动飞行器的高效非线性控制分配,兼具可解释性和低计算成本。
高阶令牌交互的量子注意力机制
发表机构 * RIKEN iTHEMS ; RIKEN AIP ; South China University of Technology(华南理工大学) ; Columbia University(哥伦比亚大学)
AI总结 提出量子高阶注意力(QHA),通过数据重上传和非克利福德纠缠器在浅电路中合成任意阶令牌交互,证明其表达能力超越经典自注意力,并具有可训练性保证,在遗传上位、带噪学习奇偶和图三角形检测中高效检测高阶交互。
基于物理信息Kolmogorov-Arnold网络的轴对称脉冲星磁层自适应框架
发表机构 * Department of Digital Industry Technologies, School of Science, National and Kapodistrian University of Athens(数字产业技术系,科学学院,国家与卡布利安大学) ; Research Center for Astronomy and Applied Mathematics, Academy of Athens(天文与应用数学研究所,雅典学院)
AI总结 提出基于Kolmogorov-Arnold网络的自适应框架,结合自动化训练流程和物理收敛准则,在双精度下将PDE残差均方误差降至O(1e-6),收敛时间缩短至20分钟内,并可靠解析缩小80%的恒星半径。
Comments 25 pages, 10 figures
降阶代理模型用于强制柔性网格海岸-海洋模型
发表机构 * DTU(技术大学)
AI总结 本文提出一种灵活的Koopman自动编码器,结合气象强迫和边界条件,对比其与POD代理模型的性能,展示高精度和高效能的降阶方法。
Comments Submitted for peer-review in a journal. v2: revised version submitted to journal after minor revisions
时序数据和短时平均值提升多相质量流量计测量
发表机构 * Dept. Electronic Systems, Norwegian University of Science and Technology(电子系统系,挪威科学与技术大学) ; Dept. Gas Technology, SINTEF Energy Research(气体技术系,SINTEF能源研究) ; Dept. Research and Development, KROHNE Ltd.(研发部,KROHNE有限公司)
AI总结 本文通过结合机器学习与单相流量计,利用时序数据和短时平均值提升多相流测量精度,CNN在0.25Hz下表现最佳,误差显著低于传统方法。
Comments 9 pages, 6 figures
Journal ref IEEE Sensors Journal, vol. 26, no. 11, pp. 17252-17261, 1 June 2026
AICO:监督学习中的特征重要性检验
发表机构 * Stanford University, Department of Management Science and Engineering and Institute for Computational and Mathematical Engineering(斯坦福大学管理科学与工程系和计算与数学工程研究所) ; Upstart, Inc.(Upstart公司) ; Stanford University, Institute for Computational and Mathematical Engineering(斯坦福大学计算与数学工程研究所)
AI总结 AICO提出一种高效统计方法,通过屏蔽特征信息来测试特征对预测性能的贡献,为大规模模型提供无分布假设的可解释性工具。
一种混合TGN-SEAL模型用于动态图链接预测
发表机构 * Department of Computer Engineering, Sharif University of Technology(谢尔万大学计算机工程系) ; Tehran Institute for Advanced Studies, Khatam University(泰赫兰高级研究院,卡塔姆大学)
AI总结 本文提出混合TGN-SEAL模型,通过提取候选链接周围子图,联合学习结构和时间信息,提升稀疏动态网络链接预测性能。
Journal ref EPJ Data Science (2026)
医学影像中的视觉模型:一种用于超声扫描中多囊卵巢综合征检测的混合方法
发表机构 * Department of CSE, CCN University of Science & Technology(计算机科学与工程系,CCN科学与技术大学) ; Department of EEE,International Islamic University Chittagong(电子工程系,国际伊斯兰大学恰tagong分校) ; Faculty of Engineering, Multimedia University(工程学院,多媒体大学) ; Department of CSE, Stamford University of Bangladesh(计算机科学与工程系,斯塔福德大学孟加拉国分校) ; Department of Biology, Lucknow University(生物学系,拉胡尔大学) ; Department of CSE, Bangladesh Army International University of Science & Technology(计算机科学与工程系,孟加拉国军队国际科学与技术大学)
AI总结 本文提出两种混合模型,结合卷积和Transformer方法,用于超声图像中多囊卵巢综合征的准确检测,最终模型在准确性上达到98.23%。
利用图形硬件加速高混响空间的交互式声景还原
发表机构 * KU Leuven, Dept. of Electrical Engineering (ESAT), STADIUS Center for Dynamical Systems, Signal Processing
AI总结 本文提出基于GPU的实时多声道扬声器声学还原系统,通过GPU加速降低计算延迟,实现高混响空间的实时声学合成与反馈消除。
Comments 9 pages, 6 figures, submitted to Journal of the Audio Engineering Society
通过自我探索的机器人好奇心驱动行为与语言发展
发表机构 * Okinawa Institute of Science and Technology(冲绳科学技术大学院大学)
AI总结 本研究通过好奇心驱动的机器人自我探索,结合Q学习实现主动推理,揭示了组合泛化、快速学习、先配对后组合以及异常处理导致的U型发展模式,为人类高效语言习得提供解释。
Comments 27 pages, 22 pages of supplementary material
指令如何塑造语音?面向风格描述文本到语音的交叉注意力归因
AI总结 提出交叉注意力归因方法,分析风格描述文本到语音系统中单词对声学输出的影响,发现风格标记在早期步骤和深层注意力峰值,且与基频和能量相关。
安全对齐的LLM从混合顺从演示中学到了什么?
AI总结 研究通过混合良性顺从演示和有害顺从演示,探究演示组成如何驱动有害顺从,发现演示内容、顺序和训练方法影响模型提取的信息。
ARC:自适应鲁棒联合状态与协方差估计
AI总结 提出统一块坐标下降框架,结合自适应鲁棒损失、迭代重加权最小二乘状态更新和最小加权协方差行列式估计器,实现离群值下状态与协方差的自适应联合估计。
Comments Submitted to information IEEE Robotics and Automation Letters (RA-L), June 2026. 8 pages, 7 figures, 1 table
直接优势估计:可扩展且样本高效的深度强化学习
AI总结 针对直接优势估计(DAE)在部分可观测域和高维观测下的局限性,本文扩展其理论框架并引入离散潜动态模型降低计算复杂度,在Arcade学习环境中验证了DAE的可扩展性和样本效率。
Comments Accepted at RLC2026
面向模态不平衡的联邦图学习:一种基于数据合成的方法
AI总结 针对联邦图学习中客户端级和节点级模态不平衡问题,提出隐式图感知潜在语义表示合成范式FedMGS,通过可用性感知图编码器、原型引导语义合成器和可靠性校准融合机制恢复缺失模态语义,在四个任务上最高提升17.41%。
时序差分学习的方差及其通过控制变量的降低
AI总结 本文分析表格表示下相位设置中时序差分学习的方差,证明其方差降低机制是通过有效聚合更多独立轨迹,并比较了TD、MC和DAE的方差界限。
Comments Accepted at RLC2026
利用系统非线性应对智能故障诊断系统设计中的数据稀缺问题
AI总结 提出一种利用系统固有非线性的周期多激励级方法,结合数据可视化与增强技术,在数据稀缺条件下实现基于深度迁移学习的振动故障诊断,并在铁路受电弓结构上验证有效性。
Journal ref Nonlinear Dynamics, vol. 112, pp. 16153-16166, 2024
面向冻结姿态流视频异常检测的可靠性感知原型校准
AI总结 提出一种后验评分校准方法RPC,通过标准化潜在空间中的最近原型偏差修正冻结姿态流检测器的排名,在8个骨干-数据集组合上平均提升AUROC 2.03个百分点。
Comments 15 pages, 5 figures, 7 tables. Code available at https://github.com/iNing10/RPC
Lagrange: 一种面向通用端到端驾驶的开放词汇、基于能量的稀疏框架
AI总结 提出Lagrange框架,利用掩码潜在场和视觉语言模型实现开放词汇、稀疏计算,通过拉格朗日动作最小化确保运动学约束,在nuScenes和CODA基准上验证了鲁棒性和可解释性。
语域差距:尼日利亚公共话语的意义智能框架
AI总结 提出九维意义智能框架(MIF),通过语域、真实意图等维度区分表面情感与真实交际意图,在尼日利亚公共话语数据集上使语域分类准确率提升40个百分点,复合意义智能评分提升5.4分。
Comments Preprint. 12 pages, 2 tables. Supplementary materials: MIF Master Specification v2.0, Annotation Guidelines v1.0, and 30-item public calibration set with gold labels available from the author
超越准确性:衡量预测模型的逻辑合规性
AI总结 提出规则违反分数(RVS),一种独立于预测准确性的评估指标,用于量化预测模型对逻辑规则的遵守程度,并通过实验证明两个准确率相近的模型可能表现出截然不同的逻辑合规性。
有效维度主导量子核视觉模型的泛化
AI总结 通过有效维度d_eff解释量子视觉模型中纠缠结构增强泛化与量子噪声提升测试精度的现象,提出噪声形状核的谱分解与正则化机制。
ReNikud:音频监督的希伯来语字素到音素转换
AI总结 提出ReNikud方法,利用音频监督和伪元音化架构,通过无标注音频的ASR伪标签和字符级对齐,解决希伯来语G2P转换中的元音缺失和发音歧义问题,在多个基准上达到最优。
探索AlphaEarth和TESSERA嵌入在精细尺度局地气候区制图中的应用潜力:以瑞士五个城市为例
AI总结 本研究对比TESSERA和AlphaEarth嵌入与传统Sentinel-1/2数据,使用注意力U-Net将粗分辨率LCZ图提升至10米,发现嵌入模型在跨城市迁移和精度上表现更优,但跨年迁移仍是挑战。
PolSeT: 波兰语音色语义数据集
AI总结 介绍PolSeT数据集,通过自由言语化和语义差异实验,收集波兰语语义描述符和音色评分,填补音色研究数据空白,支持跨文化心理声学和MIR研究。
Comments 8 pages, 7 figures. Data descriptor for the PolSeT dataset (Polish Semantics of Timbre), available at https://doi.org/10.5281/zenodo.17830609 under CC BY 4.0
基于增强现实的机器人辅助经食管超声心动图直观界面评估:用户研究
AI总结 本研究提出并评估了一种基于增强现实的直观界面,用于机器人辅助经食管超声心动图,通过3D可视化与尖端控制显著提升空间精度并降低操作误差。
GEMS: 几何约束使LLM中多语义叠加成为可能
AI总结 提出GEMS方法,通过范数保持加权叠加、目标注意力路径注入和实时正交化两个几何约束,解决无训练多方向激活干预中的分布偏差和方向干扰问题,在GSM8K上保持98%准确率。
Comments 30 pages, 5 figures, 20 tables. Code and logs are available at: https://github.com/LuLu663939/gems-multi-semantic-steering
人形机器人数据标准:物理AI缺失的基础设施
AI总结 本文论证数据标准是人形机器人可扩展性的关键基础设施,通过提出ISO/WD 26264-1标准,解决数据非累积性问题,使具身经验可解释、可共享、可追溯和可复用。