When to Align, When to Predict: A Phase Diagram for Multimodal Learning
何时对齐,何时预测:多模态学习的相图
发表机构 * Technion(以色列理工学院) ; Genentech(基因泰克公司) ; Brown University(布朗大学) ; Meta AI, FAIR
AI总结 提出统一线性框架,通过信噪比模型揭示跨模态对齐与预测的互补失效模式,构建四区域相图指导多模态学习目标选择,并在非线性实验中验证。
何时对齐,何时预测:多模态学习的相图
发表机构 * Technion(以色列理工学院) ; Genentech(基因泰克公司) ; Brown University(布朗大学) ; Meta AI, FAIR
AI总结 提出统一线性框架,通过信噪比模型揭示跨模态对齐与预测的互补失效模式,构建四区域相图指导多模态学习目标选择,并在非线性实验中验证。
注意力扩展:利用注意力增强的上下文嵌入提升长文档关键短语提取
发表机构 * Institute for Research in Technology, ICAI School of Engineering, Comillas Pontifical University(技术研究所,ICAI工程学院,科米利亚斯宗座大学) ; DD-AIM, Senior Machine Learning Researcher(DD-AIM,高级机器学习研究员)
AI总结 提出注意力扩展机制,通过预训练词嵌入增强PLM的上下文表示,在不增加计算成本的情况下扩展有效上下文范围,显著提升长文档关键短语提取性能。
UniDexTok:基于真实数据的统一灵巧手分词器
发表机构 * Fudan University(复旦大学) ; Hefei University of Technology(合肥工业大学) ; Rimbot ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出统一灵巧手模型(UDHM)将人手和机器人手状态映射到共享22自由度语义接口,并基于此开发UniDexTok,一种免重定向的状态分词器,学习基于真实关节状态的离散token,实现异构灵巧手的统一表示,误差降低98%以上。
更接近真实:一种多尺度残差感知表示学习管道用于时间序列预测
发表机构 * RobotBulls Labs(RobotBulls实验室) ; North South University(南北大学)
AI总结 提出两阶段模型无关框架,通过显式解耦预测与残差学习,使用元校正器动态建模结构误差模式,提升Transformer预测精度。
学习记住什么:通过约束优化实现长时域语言代理的观测安全记忆保留
发表机构 * Huawei Noah's Ark Lab(华为诺亚方舟实验室) ; Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系)
AI总结 针对长时域语言代理的有限上下文窗口,提出OSL-MR框架,将记忆保留建模为约束随机优化问题,通过在线可观测特征与离线监督的严格分离学习查询条件化的证据价值,实验表明在严格预算下优于现有方法。
KCSAT-ML: 用全国队列人类难度探测推理模型
发表机构 * NAVER Cloud AI(NAVER云AI) ; KAIST AI(韩国科学技术院人工智能系)
AI总结 提出KCSAT-ML基准(含664道韩国高考数学题及339道带官方错误率的核心题)和难度对齐推理增益(DRG)指标,揭示视觉语言模型在人类高错误率题目上准确率崩溃、测试时缩放非单调以及同一模型族内反缩放与过度思考并存的现象。
CineDance: 迈向下一代多镜头长片电影级音视频生成
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; University of Electronic Science and Technology of China(电子科技大学) ; Zhejiang University(浙江大学) ; The University of Tokyo(东京大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出CineDance-1M大规模多镜头长片音视频数据集,通过三阶段筛选流程和CineBench评估体系,实现高质量联合生成。
RGB-S: 用于鲁棒灵巧操作的图像对齐触觉显著性
发表机构 * ShanghaiTech University(上海科技大学) ; Beijing Institute for General Artificial Intelligence(北京通用人工智能研究院)
AI总结 提出RGB-S框架,通过正向运动学和相机标定将触觉传感器位置投影到RGB图像平面,生成力调制高斯显著性图,显式对齐触觉与视觉,在严重遮挡下灵巧操作成功率提升26.7个百分点。
何时委托优于多数?一种基于委托的多样本LLM推理聚合器
发表机构 * MIT Media Lab(麻省理工学院媒体实验室)
AI总结 提出基于委托的聚合器PPV,利用样本的字母熵和推理几何信号,在MMLU-Pro上比多数投票高1.5个百分点,无需标签或训练。
LLM 在掷骰子时有多可靠?
发表机构 * Università degli Studi di Firenze
AI总结 通过离散概率问题基准测试,发现 LLM 在标准问题上准确率 0.96,但在反直觉问题上仅 0.59,且存在 token 偏差和误导提示的脆弱性。
AI代理如何重塑知识工作:自主性、效率与范围
发表机构 * Harvard Business School ; Perplexity AI
AI总结 基于Perplexity产品数据,研究发现AI代理通过端到端任务执行,将自主工作时间从33秒提升至26分钟,完成时间缩短87%,成本降低94%,并扩展了工作范围与认知层次。
Skill-3D:面向智能体3D空间推理的场景感知技能进化
发表机构 * Zhejiang University ; University of Technology Sydney ; OPPO Research Institute
AI总结 提出Skill-3D框架,通过场景记忆和技能库的协同进化,使智能体根据场景自适应选择工具,显著提升3D空间推理中工具使用的正确性和充分性。
和弦符号时间序列适应能承载多远流派身份?多流派和弦符号建模的能力与边界
发表机构 * PearlLeeStudio
AI总结 本研究评估了五种轻量级适应方法(LoRA、IA3、BitFit、前缀微调和全微调)将预训练流行爵士和弦模型扩展到11个目标流派的效果,发现所有方法均能提升和弦预测性能,但和弦符号本身不足以完整传递流派身份。
RoboNaldo:通过运动引导课程强化学习实现精准、稳定且强力的人形足球射门
发表机构 * The University of Hong Kong(香港大学) ; The Chinese University of Hong Kong(香港中文大学) ; Archon Robotics
AI总结 提出三阶段运动引导课程强化学习框架RoboNaldo,从单一人踢参考逐步优化射门性能,在仿真中射门误差降低48.6%、速度提升2.96倍,真实机器人上3米外平均射门误差0.73-0.86米,触球后球速达13.10米/秒。
Workflow-GYM:面向真实世界专业领域的长周期计算机使用代理任务评估
发表机构 * ByteDance Seed(字节跳动Seed) ; M-A-P ; Humanlaya
AI总结 提出Workflow-GYM基准,评估AI代理在专业软件中执行长周期、高价值工作流的能力,发现最强模型成功率仅略超30%,揭示当前代理在长周期工作流一致性方面的严重不足。
用于LLM辅助临床手稿准备的确定性完整性门控:一种可审计的生物医学信息学架构
发表机构 * University of Ulsan College of Medicine(蔚山大学医学院) ; Asan Medical Center(峨山医疗中心) ; Aperivue ; AMIST, Asan Medical Center(AMIST,峨山医疗中心)
AI总结 提出一种确定性完整性门控架构,通过将工作流分解为可独立验证的技能并在每个阶段设置确定性检查,解决了LLM生成临床手稿中的虚假引用、数据漂移和报告指南缺失问题。
通过任务可交换性实现基于合成数据的有效推断
AI总结 提出任务可交换性条件,确保在科学研究中使用合成数据进行统计推断的有效性,并给出在民意调查和AI评估中的应用。
自适应轮流发言:面向实时多方语音代理
AI总结 提出ModeratorLM,一种基于角色条件的语音大模型,通过分块流式处理和链式推理,在多方对话中实现自适应轮流发言,显著提升轮流精度和召回率。
低延迟口语对话的端点预测
AI总结 提出端点预测方法,通过提前预测对话结束信号实现低延迟,在部分上下文中投机执行LLM和TTS流水线,平均延迟降低505毫秒。
用于分层分类的同时潜在预算树
AI总结 提出同时潜在预算树框架,通过模型驱动的分裂规则处理分层因素,实现可解释分类,并应用于肌萎缩侧索硬化症性别差异分析。
ProtoX-AD:自解释的时间序列异常检测与特征描述
AI总结 提出ProtoX-AD框架,通过原型学习实现自监督时间序列异常检测的可解释性,在保持检测性能的同时提供语义一致的异常特征解释。
双模式 Faust 到 CLAP 编译系统
AI总结 提出 faust2clap 框架,支持静态编译和动态解释两种模式,通过地址身份匹配算法和稳定槽位分配方案解决 DSP 参数身份保持问题,实现高效编译与热更新。
鲁棒的状态条件特征加权跳跃模型用于时间聚类
AI总结 提出一种鲁棒的特征加权跳跃模型,通过Tukey双权损失函数实现鲁棒性,并引入状态特定特征权重,在模拟和实证中优于竞争方法。
为真实场景语音增强生成训练目标:通过近远麦克风投影
AI总结 提出近远麦克风投影(C2D投影)方法,利用真实录音生成配对数据,通过参数化多通道维纳滤波器实现投影,训练神经网络在远场语音增强中优于现有GSS方法。
在端到端大语言模型中平衡ASR与说话人日志以进行多说话人语音识别
AI总结 提出双编码器架构、特征交错格式、长度感知说话人ID损失和自适应阈值ASR损失策略,在有限真实数据下高效训练LLM系统,平衡ASR与说话人日志任务,在AliMeeting和Aishell4语料库上分别实现18%和24%的相对改进。
基于EEG信号临界性的深度睡眠分类:一种用于改善睡眠神经反馈的被动BCI方法
AI总结 本研究利用去趋势波动分析(DFA)提取的临界性特征,通过朴素贝叶斯分类器实现了对深度睡眠(N3)的高精度识别(平衡准确率87.17%),为被动脑机接口中的状态依赖神经反馈提供了高效感知机制。
OCOO-T: 一种用于转录扰动响应预测的简单可扩展虚拟细胞模型
AI总结 提出OCOO-T,一种基于流匹配的简约虚拟细胞模型,通过连续时间去噪和自适应层归一化,在多个基准上实现转录扰动预测的最优性能。
计算可处理的鲁棒差分隐私均值估计
AI总结 提出一种名为“气球均值”的新差分隐私均值估计器,通过扩展马氏距离球上的迭代裁剪实现计算可处理性、鲁棒性及零集中差分隐私,理论保证在重尾和污染椭圆模型下的统计性能与鲁棒性。
使用因果变换模型(TRAM-DAG)估计急性缺血性卒中个体化治疗效果:一项多中心观察性研究及外部RCT验证
AI总结 提出因果变换模型(TRAM-DAG)估计急性缺血性卒中患者个体化治疗效果,基于观察数据拟合后,在RCT人群中验证其平均效果与ATE一致,并能正确排序患者预后。
无高斯假设的可识别性:符号世界模型与近无限时间一致性
AI总结 本文提出物理基础符号架构(PGSA),证明其在非高斯动态系统中实现精确线性可识别性和近无限时间一致性,克服了统计世界模型的高斯边界限制。