Adapted Center and Scale Prediction: More Stable and More Accurate
适应中心和尺度预测:更加稳定和准确
AI总结 本文提出了一种基于中心和尺度预测(CSP)的改进方法,旨在结合无锚点检测器的简洁性和两阶段检测器的准确性,通过增强CSP的鲁棒性、提出压缩宽度的新方法,并在CityPersons基准上取得第二名的性能,同时探索了可切换归一化的能力。
Comments 14 pages, 7 figures
适应中心和尺度预测:更加稳定和准确
AI总结 本文提出了一种基于中心和尺度预测(CSP)的改进方法,旨在结合无锚点检测器的简洁性和两阶段检测器的准确性,通过增强CSP的鲁棒性、提出压缩宽度的新方法,并在CityPersons基准上取得第二名的性能,同时探索了可切换归一化的能力。
Comments 14 pages, 7 figures
基于音频的 giant pandas 雌雄配对成功率预测
AI总结 本文提出了一种基于音频的自动方法,用于预测 giant pandas 的配对成功率,通过提取音频特征并使用深度神经网络进行分类,以辅助大熊猫的繁殖研究。
Comments The manuscript needs further revision
对用于开放集虹膜呈现攻击检测的视觉基础模型系统性失败分析
AI总结 本文系统分析了视觉基础模型在开放集虹膜呈现攻击检测中的表现,发现其在面对未见过的攻击设备和跨光谱转移时表现不佳,强调了需要更鲁棒的虹膜检测表示方法。
LoRA与全微调:一种理论视角
AI总结 本文从理论角度研究了LoRA与全微调在线性回归中的表现,发现LoRA在过定和欠定情况下能够以更低的额外风险优于全微调,且LoRA秩的选择影响泛化性能,实验验证了理论结果的广泛适用性。
Comments Preprint
SAGA:一种序列自适应的生成架构,用于多时间跨度概率预测的自适应时间符合预测
AI总结 本文提出SAGA,一种用于不规则表格面板序列的解码器-only transformer,结合分割符合校准包装器,提供个体层面的预测区间,并保证有限样本边缘覆盖。SAGA在瑞典LISA登记处的纵向数据上训练,预测了1到30年的年度劳动收入,并通过蒙特卡洛方法汇总成现值寿命收入分布。与传统参数过程和表格和循环基线相比,SAGA在10年时间跨度上将连续排名概率分数减少了31.9%,在20年时间跨度上将平均绝对误差减少了37.7%。符合区间在边缘情况下覆盖率为0.4个百分点,在最差的人口子群体中为2.4个百分点。重建的寿命收入基尼系数为0.327,与部分观测的真实值0.341和GKOS估计值0.378相比。模型权重、校准表和合成等价数据集已发布,供在保护的SCB MONA环境中外的复制使用。
Comments 14 pages, 3 figures, 12 tables, 5 appendices, 45 references. Submitted to IEEE TPAMI. Source code at https://github.com/olaflaitinen/saga (archived: doi:10.5281/zenodo.20260366). Synthetic equivalent dataset: doi:10.5281/zenodo.20260287. Empirical work conducted on the Swedish LISA register via SCB MONA (project SCB-MONA-2026-147); ethical approval Swedish Ethical Review Authority 2026-04127-01
AgentNLQ: 一个通用的自然语言到SQL代理
AI总结 本研究提出了一种多代理方法,用于改进自然语言到SQL的转换,该方法在BIRD基准测试中实现了78.1%的语义准确率,并通过优化的多代理解决方案、先进的模式增强方法以及跨不同领域和数据集的评估,展示了方法的准确性和泛化能力。
对SPARK人形机器人类安全过滤器的对抗性压力测试
AI总结 本文通过复制和压力测试研究了SPARK人形机器人类安全过滤器的鲁棒性,评估了多种方法在不同环境下的表现,揭示了安全行为在障碍物密集、距离估计噪声和延迟信息下的变化,强调了在部署前需使用能暴露故障模式的评估指标。
Comments 5 pages, 7 figures, 1 table. Code available at https://github.com/ghoshsaurav/spark-adversarial-safety
通过线学习的训练控制治理:在压力下受限制的自主训练以稳定性和效率
AI总结 本文提出了一种名为Learn-by-Wire Guard (LBW-Guard)的受限制自主训练控制治理层,用于在压力下提高大型语言模型的稳定性和效率,通过在AdamW之上进行有界控制,以保持固定训练目标。
EgoTraj: 用于多模态预测的现实世界人轨迹数据集
AI总结 本文提出EgoTraj数据集,用于多模态预测,包含75个真实城市环境中的人导航轨迹,提供了同步的RGB视频和地面真实数据,包括6自由度头部姿态、3D眼 gaze向量和场景注释,展示了该数据集在AR感知、导航和辅助系统中的应用价值。
Comments 21 pages, 14 figures. Project page: https://github.com/yehiahmad/EgoTraj
Distance-Aware Muon: Adaptive Step Scaling for Normalized Optimization
AI总结 本文研究了Muon优化器在一般范数几何中的自适应步长缩放规则,提出三种互补算法,包括Distance-Adaptive Muon、Scale-Calibrated Muon和Distance-Free Muon,通过证明站arity保证、目标间隙界和信任区域半径选择,提升了优化性能。
Artifact-Bench: 评估MLLMs在检测和评估AI生成视频中的伪影
AI总结 本文提出Artifact-Bench,一个用于评估多模态大语言模型在检测和分析AI生成视频伪影能力的基准,揭示了现有模型在伪影感知和推理上的显著局限性。
TabQL: 基于表格基础模型的上下文Q学习
AI总结 本文提出TabQL,一种基于表格基础模型的强化学习框架,通过上下文学习能力替代传统参数Q网络,提升Q值表示的适应性与效率。
利用自监督特征进行艺术分类
AI总结 本文研究了监督和自监督主干作为特征提取器在艺术分类和检索中的有效性,特别是绘画,通过DINO家族和CLIP模型的实验评估,证明自监督主干在艺术分类中能带来一致的性能提升,并为现实应用如虚拟现实中的博物馆导航提供了见解。
Comments IRCDL 2026
塑造先验:合成任务分布如何决定表格基础模型的质量
AI总结 本文研究了合成任务分布对表格基础模型质量的影响,提出O'Prior方法,通过四个耦合组件构建更真实的先验,提升了下游任务的准确性和鲁棒性。
MotionMERGE: 一种用于人体动作编辑、推理、生成和解释的多粒度框架
AI总结 本文提出MotionMERGE框架,通过细粒度语言引导的动作控制、跨粒度协同预训练和细粒度动作-语言对齐,实现了更精确的动作生成、理解和编辑,并建立了新的细粒度文本驱动动作编辑和动作引导推理基准。
对ReLU + RMSNorm块在三元量化下的符号幅度不对称性进行几何分析
AI总结 本文通过符号幅度分解解释了在三元量化下ReLU + RMSNorm块的符号幅度不对称性,揭示了ReLU和RMSNorm在权重扰动中的几何机制,并通过实验验证了这种不对称性在实际模型中的表现。
Comments 53 pages, 2 figures, 21 tables, 7 appendices
基于地理数据的高精地图生成工作流与集成的无参考约束验证
AI总结 本文提出了一种基于地理数据的高精地图生成工作流,结合了无参考约束验证,以降低对高精度参考数据的依赖,提高在缺乏专业测量数据或独立参考地图时的应用可行性。
状态空间模型神经算子的稳定性与离散化误差
AI总结 本文研究了状态空间模型神经算子的稳定性与离散化误差,通过理论分析建立了神经算子近似方案的离散误差和稳定性保证,提出了针对SS-NOs和FNOs的新的离散误差定理,并通过实验验证了其在不同分辨率下的鲁棒性。
动态模型合并的轻量级方法
AI总结 本文提出DiDi-Merging方法,通过可微分的秩分配平衡共享和专家参数,实现更高效的动态模型合并,在参数量上显著优于现有方法。
推理可移植性:引导MLLMs在RLVR时代的持续学习
AI总结 本文提出了一种名为推理可移植性(RP)的机制,通过在持续学习中引入推理层面的约束,改进了多模态大语言模型在RLVR环境下的适应能力,实验表明RDB-CL在提升最后准确率方面优于基线方法。
不要让多臂老虎机反馈将连续LLM推荐系统更新偏离目标
AI总结 本文提出了一种名为Anchored Bandit Policy Optimization (ABPO)的框架,用于持续改进基于生成式大语言模型的推荐系统,通过结合组内相对策略优化(GRPO)和显式处理曝光偏差和反馈模糊性,以减少因部署日志提供的策略形状上下文老虎机反馈导致的偏差,并提高推荐准确性。
KG-ASG: 基于碰撞知识的闭环对抗场景生成与主支持属性
AI总结 本文提出KG-ASG框架,通过碰撞知识引导和主支持属性,提高自动驾驶系统安全验证的对抗有效性、可解释性和可执行性。
通过Logit最大化实现无数据的客户端贡献估计用于联邦学习
AI总结 本文提出了一种基于Logit最大化的无数据客户端贡献估计和聚合框架CELM,该框架无需共享原始数据、客户端元数据或辅助公开数据,通过客户端更新获取类别证据分数并构建跨客户端证据矩阵,以量化每类的竞争力和类别覆盖范围,从而计算出对少数类提供强判别性证据的客户端贡献权重,提高联邦学习的鲁棒性和性能。
Comments 22 pages, 7 figures
在取消学习后使用头部条件化的候鸟审计推理轨迹记忆化声明
AI总结 该研究通过在DeepSeek-R1-Distill-Qwen-7B上使用LoRA记忆化的虚构作者和NPO取消学习,结合六token候鸟头部条件,审计推理轨迹记忆化声明,发现正向解析器拆分绕过间隙本身并不能识别隐藏的权重级记忆化,也不能排除其存在。
软学习
AI总结 本文提出软学习框架,通过交叉验证非负最小二乘法发现最优组合权重,实现比深度网络快数十倍的训练速度,同时具备内在可解释性和未来扩展性,优于多种方法,在70%的任务上排名第一。
在情绪树中导航:用于多模态情绪识别的分层双曲RAG
AI总结 本文提出HyperEmo-RAG,一种利用结构化情绪知识库的检索增强生成框架,通过双曲空间嵌入和证据图构建来提升多模态情绪识别的性能。
预测并非物理:在神经模拟器中学习和评估守恒量
AI总结 本文研究了神经网络能否从物理轨迹中学习或选择全局守恒量,通过三个哈密顿系统(抛体运动、单摆和弹簧-质量系统)验证了不同模型在守恒律保持方面的性能,发现黑盒CDN在加入时间一致性损失时表现更优,而多项式CDN对训练配置敏感。
Comments 10 pages
叫还是不叫:诊断LLM代理中的内在过度调用偏差
AI总结 本文研究了LLM代理中过度调用现象,提出内在偏差假说,通过稀疏自编码器恢复行为对齐的特征基,减少到带符号激活边距,并估计偏移量,从而修正过度调用问题。
气味导航中通过记忆增强强化学习的流辅助铸造策略的出现
AI总结 研究通过记忆增强强化学习探讨了在动态流场中动物如何利用记忆长度和流条件优化气味搜索效率,发现智能体通过自适应调整搜索轨迹几何形状和启动铸造的浓度阈值来最大化成功概率。
一种多维聚类方法用于识别先天性免疫缺陷
AI总结 本文提出一种多维聚类方法,用于从全国数据注册中识别新的罕见疾病模式并提取与先天性免疫缺陷相关的特征,通过改进IEI特征意识和开发罕见疾病人群分析的数据工具包,扩展了复杂医疗记录到可被无监督ML解释的数据结构。
Comments Accepted at EMBC 2026