When to Align, When to Predict: A Phase Diagram for Multimodal Learning
何时对齐,何时预测:多模态学习的相图
发表机构 * Technion(以色列理工学院) ; Genentech(基因泰克公司) ; Brown University(布朗大学) ; Meta AI, FAIR
AI总结 提出统一线性框架,通过信噪比模型揭示跨模态对齐与预测的互补失效模式,构建四区域相图指导多模态学习目标选择,并在非线性实验中验证。
何时对齐,何时预测:多模态学习的相图
发表机构 * Technion(以色列理工学院) ; Genentech(基因泰克公司) ; Brown University(布朗大学) ; Meta AI, FAIR
AI总结 提出统一线性框架,通过信噪比模型揭示跨模态对齐与预测的互补失效模式,构建四区域相图指导多模态学习目标选择,并在非线性实验中验证。
通过目标分布设计审视监督微调的统一视角
发表机构 * University of California, Los Angeles (UCLA)(加州大学洛杉矶分校) ; Arena
AI总结 本文重新解读监督微调为目标分布设计,提出Q-target框架,将监督分解为对观测token的依赖强度与替代token的概率分配,并基于此提出Target-SFT方法,在多个推理任务中优于现有方法。
ARM: 一种具有统一离散表示的自回归大型多模态模型
发表机构 * Shanghai Key Lab of Intelligent Information Processing, Fudan University(复旦大学上海智能信息处理重点实验室) ; School of Computer Science, Fudan University(复旦大学计算机科学技术学院) ; Shanghai Collaborative Innovation Center of Intelligent Visual Computing(上海智能视觉计算协同创新中心) ; Youtu Lab, Tencent(腾讯优图实验室) ; Meta AI ; Shanghai AI Laboratory(上海人工智能实验室)
AI总结 提出ARM模型,通过离散语义视觉分词器将图像映射为紧凑token序列,结合自回归建模和强化学习,统一实现图像理解、生成和编辑,并提升任务性能与跨任务协同。
Next Forcing: 基于多块预测的因果世界建模
发表机构 * Robbyant ; HUST(华中科技大学) ; HKUST(香港科技大学) ; HKUST (GZ)(香港科技大学(广州))
AI总结 提出Next Forcing框架,通过多块预测训练目标加速视频生成模型收敛、提升精度并实现推理加速,在多个基准上取得最优结果。
TacForeSight:面向接触丰富操作的力引导触觉世界模型
发表机构 * TARS Robotics ; National University of Singapore(新加坡国立大学) ; Shanghai Jiao Tong University(上海交通大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Fudan University(复旦大学)
AI总结 提出TacForeSight框架,通过力条件触觉世界模型预测触觉潜动态,结合预测性触觉条件策略实现高频操作下的主动接触推理,在动态接触干扰下优于现有方法。
EEVEE:面向真实世界自改进智能体的测试时提示学习
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Princeton University(普林斯顿大学)
AI总结 提出首个多数据集测试时提示学习框架EEVEE,通过路由器与提示协同进化策略解决跨数据集干扰,在异构数据流下提升鲁棒性。
Lip Forcing: 用于实时唇部同步的少步自回归扩散
发表机构 * KAIST AI(韩国科学技术院人工智能) ; AIPARK
AI总结 提出Lip Forcing,首个用于视频到视频唇部同步的自回归扩散方法,通过蒸馏14B教师模型为因果学生模型,仅需两步去噪即可实现实时同步,并引入同步窗口DMD、两步推理计划和SyncNet奖励。
数据记者智能体:将数据转化为可验证的多模态故事
发表机构 * University of Oxford(牛津大学) ; Stanford University(斯坦福大学)
AI总结 提出多智能体框架Data2Story,通过证据链验证声明并自动生成多模态文章,在18篇文章上评估,证明其在透明性和可审计性上接近人类记者。
反馈对齐在自蒸馏中的作用
发表机构 * Gensyn
AI总结 研究通过自蒸馏提升语言模型性能时,反馈与模型推理的结构对齐是关键因素,步级对齐批评比二元奖励或参考解更有效。
推理模型中预测未来行为以实现更好的引导
发表机构 * Fraunhofer HHI(弗劳恩霍夫海因里希·赫兹研究所) ; Northeastern University(东北大学) ; KAIST(韩国科学技术院)
AI总结 通过训练激活探针预测推理模型未来行为,提出未来探针控制生成(FPCG)方法,在多个评估中实现几乎无质量下降的引导。
全双工语音模型中的多面交互对齐
发表机构 * Kyutai ; Gradium
AI总结 针对全双工对话模型交互性问题,提出基于强化学习的后训练对齐方法,从暂停处理、话轮转换、回馈和用户打断四个维度优化,并加入LLM奖励防止语义退化,在Moshi和PersonaPlex上取得一致改进。
ReasonAlloc: 推理模型的分层解码时KV缓存预算分配
发表机构 * Tsinghua University(清华大学) ; City University of Hong Kong(香港城市大学) ; Peking University(北京大学) ; Shenzhen University of Advanced Technology(深圳理工大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
AI总结 针对长链式推理中KV缓存快速增长导致的推理瓶颈,提出ReasonAlloc框架,通过离线层预分配和在线头重分配的分层预算分配策略,在不增加训练开销下显著提升小预算下的推理性能。
COGENT: 基于神经常微分方程的连续图仿真器用于长期物理预测
发表机构 * Lehigh University(理海大学)
AI总结 提出COGENT,一种结合图编码器和神经常微分方程的连续图仿真器,用于不规则地理空间网格上的长期物理预测,通过连续潜在动力学实现任意时间预测,并采用滚动视界采样和渐进调度策略稳定训练,在冰盖模拟中展现出优于自回归图基线的长期稳定性。
JOIN:通过对抗、推理和导航实现基于锚点抓取条件的双臂辅助操作连接
发表机构 * Northeastern University(东北大学)
AI总结 提出一种异构按需双臂系统JOIN,通过锚点臂与移动补臂的条件性连接,结合视觉语言模型和几何工具,解决代表性双臂日常生活任务,在实验中成功率更高且需更少人工修正。
高效学习带有Massart噪声的漂移半空间
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 针对Massart噪声下的漂移概念学习问题,提出一种计算高效的学习器,实现误差η + Õ(Δ^{1/3}/γ),并证明该误差在低度多项式测试下最优。
MOFA-VTON: 虚拟试衣中细粒度调整带来的更多时尚可能性
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; HiDream.ai Inc.(HiDream.ai公司) ; Harbin Institute of Technology (Weihai) Qingdao Research Institute(哈尔滨工业大学(威海)青岛研究院)
AI总结 提出MOFA-VTON方法,通过用户绘制简单草图实现虚拟试衣中服装布局的细粒度调整,利用掩码构建策略和布局调整模块,在VITON-HD和DressCode数据集上超越现有方法。
OncoTraj:EGFR突变非小细胞肺癌奥希替尼耐药纵向预测的公共基准
发表机构 * Span AI
AI总结 针对EGFR突变非小细胞肺癌一线奥希替尼耐药预测缺乏公共基准的问题,提出OncoTraj基准,整合813名患者数据,定义三项任务,并发现单时间点组织NGS特征导致所有模型性能接近随机,而TP53共突变与进展率升高相关。
一般ReLU的鲁棒回归与查询
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; University of California, San Diego(加利福尼亚大学圣迭戈分校)
AI总结 针对高斯分布下一般ReLU的平方损失鲁棒回归,提出首个高效查询算法,使用d polylog(1/ε)+Õ(min{1/p,1/ε})个标签查询达到O(opt)+ε误差,并证明查询复杂度近最优。
WorldOlympiad:你的世界模型能经受铁人三项考验吗?
发表机构 * Zhejiang University(浙江大学) ; DAMO Academy, Alibaba Group(阿里巴巴达摩院) ; The Hong Kong University of Science and Technology(香港科技大学) ; Monash University(莫纳什大学) ; TRE, Alibaba Group(阿里巴巴TRE)
AI总结 提出WorldOlympiad基准,从物理忠实性、几何一致性和交互保真度三个维度诊断视频世界模型,揭示现有模型在物理推理、3D一致性和长程交互方面的显著不足。
基于来源的门控与自适应恢复在合成后训练数据筛选中的应用
发表机构 * Lexsi Labs
AI总结 研究合成后训练数据筛选中的来源证据门控与样本自适应恢复,提出结合故障诊断与定向再生成的自适应恢复流水线,提高产量、恢复率和注入召回率。
克服反馈对齐中的秩坍缩
发表机构 * Imperial College London(伦敦帝国理工学院) ; Mila(Mila研究所)
AI总结 研究发现反馈对齐(FA)在深层网络中因误差信号秩低而失效,提出通过Muon优化器和隐藏活动归一化提升信号维度,在CIFAR100上ResNet-18准确率提升9个百分点。
蒙特卡洛传球搜索:利用轨迹生成进行足球3D反事实传球评估
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出蒙特卡洛传球搜索(MCPS),结合价值模型、世界模型和反事实策略,基于3D轨迹数据评估足球传球,通过两种执行盈余分数实现分布感知的传球分析。
TRACE:一种用于高效智能体强化学习的统一展开预算分配框架
发表机构 * Tsinghua University(清华大学) ; Tencent(腾讯)
AI总结 针对多轮智能体强化学习中奖励对比度不足的问题,提出TRACE框架,通过将每个ReAct式思考-行动-观察步骤建模为语义节点,在固定采样预算内将预算分配到提示根和中间前缀,增强奖励对比,提升策略更新信号。
EM-Fall: 用于人形机器人昼夜跌倒检测的具身毫米波感知
发表机构 * MARS Lab(MARS实验室) ; NTU(南洋理工大学) ; IOT Lab(物联网实验室)
AI总结 提出EM-Fall框架,将毫米波感知与移动人形机器人结合,通过主动调整视角实现跨房间遮挡下的跌倒检测,并设计轻量时序模型处理宠物干扰和多径效应,在8个真实环境中验证了鲁棒性。
FADA: 可访问的胎儿超声解读与标注——基于选择性蒸馏的统一视觉-语言模型
发表机构 * Hamad Bin Khalifa University(哈马德·本·哈利法大学) ; HMC(哈马德医疗公司) ; Advanced AlRazi Diagnostic Center(高级阿尔拉齐诊断中心) ; Sidra Medicine(锡德拉医学)
AI总结 提出统一视觉-语言模型FADA,通过选择性蒸馏从四个领域基础模型提取知识,实现胎儿超声的解读、分类、检测和分割,在单个消费级GPU上训练,无需外部标签,可在智能手机上离线运行。
PhantomBench: 对语言模型非存在性威胁的基准测试
发表机构 * University of British Columbia(不列颠哥伦比亚大学) ; Canada CIFAR AI Chair, Amii(加拿大CIFAR人工智能主席,阿米研究所)
AI总结 提出PhantomBench,首个大规模非存在概念基准,包含6万多个虚构实体,评估21个模型,发现平均幻觉率高达86.7%,前沿模型也难以避免。
IDEAL: 深度对齐实现离散表示自编码器
发表机构 * Institute of Trustworthy Embodied AI, Fudan University(复旦大学可信具身人工智能研究所) ; Shanghai Innovation Institute(上海创新研究院) ; University of Maryland, College Park(马里兰大学帕克分校)
AI总结 提出IDEAL框架,通过联合对齐量化令牌与浅层和深层VFM特征,提升离散表示自编码器的重建质量,在ImageNet上实现0.61 rFID,并创下自回归图像生成新纪录(gFID 1.89)。
资源受限环境下的分布式多UGV探索框架:环回感知规划与描述符辅助定位
发表机构 * School of Mechanical Engineering, Beijing Institute of Technology(北京理工大学机械与车辆学院) ; China North Artificial Intelligence & Innovation Research Institute, Collective Intelligence & Collaboration Laboratory (CIC)(中国北方人工智能与创新研究院集体智能与协作实验室) ; Zhengzhou Intelligent Technology Research Institute, Beijing Institute of Technology(北京理工大学郑州智能科技研究院)
AI总结 提出一种完全分布式的多无人地面车辆(UGV)探索框架,通过轻量级LiDAR全局描述符实现跨UGV环回检测,并结合环回感知分层规划,在资源受限环境中减少探索时间和行驶距离。
强化学习中流策略的测试时梯度引导
发表机构 * UC Berkeley(加州大学伯克利分校) ; Physical Intelligence
AI总结 提出QGF算法,通过预训练参考流策略和价值函数,在测试时利用价值梯度引导策略生成高价值动作,无需额外策略学习,在离线RL基准上优于现有测试时方法且与训练时方法竞争力相当。
统一大语言模型预训练中的本地通信与本地更新
发表机构 * Concordia University(康考迪亚大学) ; Mila ; CNRS, Sorbonne University(法国国家科学研究中心,索邦大学)
AI总结 提出GASLoC算法,通过去中心化训练框架统一本地通信与更新,在异构带宽下优于DiLoCo,支持自适应优化器和多本地步骤。