NoiseSDF2NoiseSDF: Learning Clean Neural Fields from Noisy Supervision
NoiseSDF2NoiseSDF: 从含噪监督中学习干净的神经场
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出NoiseSDF2NoiseSDF方法,通过最小化含噪SDF表示之间的MSE损失,从含噪点云中学习干净的神经SDF,实现隐式去噪和表面优化。
NoiseSDF2NoiseSDF: 从含噪监督中学习干净的神经场
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出NoiseSDF2NoiseSDF方法,通过最小化含噪SDF表示之间的MSE损失,从含噪点云中学习干净的神经SDF,实现隐式去噪和表面优化。
对机器文本检测器的攻击保留风格指纹
发表机构 * GitHub ; University of California, Berkeley(加州大学伯克利分校)
AI总结 研究机器文本检测器对抗攻击的局限性,提出一种同时优化不可检测性和特定人类风格的 paraphrasing 方法,发现单文档检测不可靠,需多文档分析。
CoT-Space: 一种通过强化学习实现内部慢思考的理论框架
发表机构 * Zeyu Gan, Yi Hao, Yong Liu(GAN 赵毅、LIU 刘永)
AI总结 本文提出CoT-Space理论框架,通过强化学习将推理过程从离散的token预测任务转化为连续的推理层面语义空间中的优化过程,揭示了测试时扩展中最优CoT长度的收敛是欠拟合与过拟合基本权衡的自然结果。
CapStARE: 基于胶囊的序列架构实现鲁棒高效的目光估计
发表机构 * University of the Basque Country(巴斯克大学)
AI总结 提出CapStARE,结合冻结ConvNeXt骨干、注意力路由胶囊和双GRU解码器,在ETH-XGaze等数据集上实现实时高精度目光估计,兼顾空间鲁棒性与计算效率。
线性回归中的风险比较:隐式正则化主导显式正则化
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Alphabetical order ; Harvard University(哈佛大学) ; Google DeepMind(谷歌DeepMind)
AI总结 本文通过实例比较线性回归中梯度下降、岭回归和随机梯度下降的有限样本风险,发现梯度下降优于岭回归,但与随机梯度下降不可比,且在某些问题中梯度下降可能更差。
FG-Attn:在视频扩散模型中利用细粒度稀疏注意力
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 针对视频扩散模型中注意力层计算开销大的问题,提出FG-Attn,一种低开销的细粒度稀疏注意力机制,在MxN块粒度上跳过分数计算,实现最高2.45倍加速。
CAST: 反事实标签提升视觉-语言-动作模型中的指令跟随能力
发表机构 * University of California Berkeley(加州大学伯克利分校) ; Princeton University(普林斯顿大学)
AI总结 针对VLA模型难以遵循细粒度指令的问题,提出利用视觉语言模型生成反事实标签增强数据集,提升语言基础多样性,实验表明该方法在导航和操作任务中显著提升指令跟随成功率。
基于优化的在线共形预测用于多步预测
发表机构 * University of Michigan(密歇根大学)
AI总结 提出O2CP框架,通过双层优化结构建模多步误差依赖,在保证边际覆盖有效性的同时生成更窄的预测区间,实验表明在自动驾驶、气候预测等领域优于现有方法。
CoTAL:面向可泛化形成性评估评分与反馈的人机协同提示工程
发表机构 * Vanderbilt University(范德比大学)
AI总结 提出CoTAL方法,结合证据中心设计、人机协同提示工程和思维链提示,迭代优化LLM评分,在多个领域提升GPT-4评分性能达38.9%,并获师生认可。
Whisfusion: 基于掩码扩散的并行ASR解码
发表机构 * Seoul National University(首尔国立大学) ; Soongsil University(顺天大学) ; NVIDIA Corporation(英伟达公司)
AI总结 提出Whisfusion,在冻结的Whisper音频嵌入上训练专用掩码扩散解码器,通过并行扩散解码实现非自回归ASR,在多种语言基准上超越Whisper-large-v3,速度提升4-5倍。
CITRAS: 协变量感知的Transformer时间序列预测
发表机构 * Research & Development Group, Hitachi, Ltd.(日立有限公司研发部)
AI总结 提出CITRAS,一种仅解码器Transformer,通过KV移位和注意力分数平滑机制灵活整合已知协变量的未来部分,并捕获局部和全局跨变量依赖,提升预测精度。
二元角色扮演场景中跨情境的人格维度评估
发表机构 * Idiap Research Institute(日内瓦研究所) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 研究通过对话语音分析,发现感知人格在不同工作情境下显著变化,并识别出与各人格特质相关的声学特征。
基于RSMA的异构无人机网络中LLM辅助的联合保密预编码与轨迹设计
发表机构 * School of Computer Science and Technology, Xidian University(西安电子科技大学计算机科学与技术学院) ; Department of Applied Data Science, San Jose State University(圣何塞州立大学应用数据科学系)
AI总结 针对RSMA异构无人机网络中的安全通信问题,提出分层优化框架:内层用SDR-S2DC算法求解固定位置下的保密预编码,外层用LLM引导的多智能体强化学习优化轨迹,实现保密速率与能效的权衡。
MeMo: 视觉受损条件下的实时视听目标说话人提取的注意力动量
发表机构 * Department of Electrical and Electronic Engineering, Faculty of Engineering, The Hong Kong Polytechnic University(电子工程系,工程学院,香港理工大学) ; Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong(系统工程与工程管理系,香港中文大学) ; School of Artificial Intelligence (SAI), The Chinese University of Hong Kong, Shenzhen(人工智能学院(SAI),香港中文大学深圳校区) ; School of Intelligence Science and Technology, Nanjing University(智能科学与技术学院,南京大学) ; Tongyi Lab, Alibaba Group, Singapore(通义实验室,阿里巴巴集团,新加坡)
AI总结 提出MeMo框架,通过两个自适应记忆库存储注意力信息,在视觉线索缺失时维持注意力动量,实现实时目标说话人提取,SI-SNR提升至少2dB。
直接偏好优化综述:数据集、理论、变体及应用
发表机构 * Zhejiang University(浙江大学) ; Nanyang Technological University(南洋理工大学) ; Alibaba Group(阿里巴巴集团)
AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。
打破维度诅咒:扩散模型高效学习低维分布
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出新数学框架,证明扩散模型通过等价于子空间聚类,能以线性于内在维度的样本复杂度学习低维分布,避免维度诅咒。
立场:机器学习社区必须构建AI增强的同行评审生态系统
发表机构 * University of Amsterdam(阿姆斯特丹大学) ; University of Cambridge(剑桥大学) ; ETH Zurich(苏黎世联邦理工学院) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 针对ML领域稿件激增导致同行评审危机,本文主张将AI辅助评审作为优先研究课题,提出利用大语言模型作为协作工具,增强事实核查、评审指导、作者改进和决策支持,并强调需要更细粒度的评审数据。
双流注意力引导学习用于弱监督全切片图像分类
发表机构 * College of Computer Science and Technology, College of Data Science, Taiyuan University of Technology(太原科技大学计算机科学与技术学院、数据科学学院) ; College of Humanities, Law and Foreign Languages, Taiyuan University of Technology(太原科技大学人文学院、法律与外语学院) ; College of Artificial Intelligence, Taiyuan University of Technology(太原科技大学人工智能学院) ; School of Cyberspace Security, Beijing University of Posts and Telecommunications(北京邮电大学网络安全学院) ; School of Mathematics, Taiyuan University of Technology(太原科技大学数学学院)
AI总结 提出双流注意力引导学习框架,通过师生双流架构和注意力引导伪标签,解决弱监督下全切片图像中关键区域识别和实例关系建模问题,在合成和真实病理数据集上优于现有方法。
面向文本到图像生成的高效路由:成本感知方法
发表机构 * Tandon School of Engineering, New York University(纽约大学Tandon工程学院) ; Google(谷歌) ; Eigen 4D Inc.(Eigen 4D公司)
AI总结 提出成本感知路由框架,根据提示复杂度自动选择不同去噪步数或模型,在保证高质量的同时降低计算成本,优于单一模型。
AI生成语言中的标准语言意识形态
发表机构 * Stanford University(斯坦福大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 本文提出一个分类法,揭示大型语言模型如何强化标准语言意识形态,导致语言变体的边缘化,并讨论其社会影响及应对建议。
面向LLM智能体的事实增强前瞻规划
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出LWM-Planner框架,通过从轨迹中提取关键事实并用于条件化动作提议、世界模型模拟和状态值估计,实现无需参数更新的在线规划改进,在多个环境上优于ReAct/Reflexion和纯搜索基线。
战略诉讼的机器学习理论视角
发表机构 * Toyota Technological Institute at Chicago(芝加哥丰田技术研究所) ; University of Maryland(马里兰大学) ; The University of Chicago(芝加哥大学)
AI总结 从机器学习理论出发,建模普通法体系中战略诉讼者通过选择案件影响下级法院决策规则的问题,分析其影响力和最优策略,发现反直觉现象。
Visual-TCAV:用于图像分类事后可解释性的基于概念的归因和显著性图
发表机构 * Politecnico di Milano(米兰理工大学)
AI总结 提出Visual-TCAV框架,结合概念激活向量和积分梯度,生成类无关显著性图并估计概念归因,在受控实验中比TCAV更忠实于真实解释。
ASyMOB:代数符号数学运算基准
发表机构 * MIT(麻省理工学院) ; Technion - Israel Institute of Technology(技术学院-以色列理工学院)
AI总结 提出ASyMOB基准,包含35,368个符号数学问题,通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足,并发现LLM与CAS的互补潜力。
FreshRetailNet-LT:面向生鲜零售中潜在需求恢复与预测的缺货标注删失需求数据集
发表机构 * Fresh Retail, Inc.(新鲜零售公司)
AI总结 针对生鲜零售中缺货导致的销售数据删失问题,提出首个大规模基准数据集FreshRetailNet-50K,包含50,000条高时间分辨率小时级销售序列及缺货标注,并展示了两阶段需求建模方法,将预测准确率提升2.73%,需求低估偏差从7.37%降至近零。
训练后增强不变性
发表机构 * Department of Mathematics, Dartmouth College(达特茅斯学院数学系)
AI总结 提出训练后增强不变性框架,通过轻量级MLP适配器网络在预训练模型潜空间上实现近似不变性,无需微调且保持原始特征。
CleanPatrick: 图像数据清洗基准
发表机构 * University of Basel(巴塞尔大学) ; Lucerne University of Applied Sciences and Arts(卢塞恩应用科学大学) ; University Hospital of Basel(巴塞尔大学医院) ; Northwestern University(西北大学) ; Northeast Dermatology Associates(东北皮肤科诊所) ; Medical University of Vienna(维也纳医科大学) ; Banner Health(Banner健康系统)
AI总结 提出首个大规模图像数据清洗基准CleanPatrick,基于Fitzpatrick17k皮肤病数据集,收集大量众包标注并采用项目反应理论聚合,将问题检测形式化为排序任务,评估多种方法。
基于大型语言模型的搜索引擎对抗攻击动力学
发表机构 * Arizona State University(亚利桑那州立大学)
AI总结 本文将排名操纵攻击建模为无限重复囚徒困境,分析合作维持条件,发现降低攻击成功率可能反而激励攻击,防御措施在某些情况下无效。
HandCept: 用于灵巧手精确本体感知的视觉-惯性融合框架
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; National University of Singapore(新加坡国立大学)
AI总结 提出HandCept,首个视觉-惯性本体感知框架,通过零样本学习和无延迟扩展卡尔曼滤波融合腕部RGB-D相机与9轴IMU,实现2°-4°关节角估计误差且无漂移,优于纯视觉或纯惯性方法。
具身智能时代基于物理模拟器的机器人导航与操作综述
发表机构 * Department of Computer Science, City University of Hong Kong(城市大学计算机科学系) ; School of Electrical and Electronic Engineering, Nanyang Technological University(南洋理工大学电子与电气工程学院) ; Department of Informatics, Universität Hamburg(汉堡大学信息学院)
AI总结 本文综述了物理模拟器在缩小具身智能中导航与操作的模拟到现实差距方面的关键特性、任务支持及硬件需求,并提供了基准数据集、指标、平台和方法资源。