Investigating Modality Contribution in Audio LLMs for Music
在音乐音频大语言模型中探讨模态贡献
AI总结 本文通过MM-SHAP框架量化音频大语言模型中各模态的贡献,发现高准确率模型更依赖文本回答问题,但音频仍能局部化关键声音事件,首次将MM-SHAP应用于音频大语言模型。
Comments 5 pages, 2 figures, accepted at ICASSP 2026
在音乐音频大语言模型中探讨模态贡献
AI总结 本文通过MM-SHAP框架量化音频大语言模型中各模态的贡献,发现高准确率模型更依赖文本回答问题,但音频仍能局部化关键声音事件,首次将MM-SHAP应用于音频大语言模型。
Comments 5 pages, 2 figures, accepted at ICASSP 2026
基于过程的制药制造复杂热力学动态预报
AI总结 本文提出基于过程的预报方法,结合传统模型和深度学习架构,通过整合过程先验信息提升预测准确性与物理一致性,验证了其在制药冻干过程中的有效性。
自引导在线数据精炼用于扩散模型训练
AI总结 本文研究自引导和在线数据选择方法对扩散模型训练效率的影响,通过合成数据任务验证了自引导在样本质量和多样性上的优势。
Comments Accepted non-archival paper at ICCV 2025 Workshop on Curated Data for Efficient Learning (CDEL)
面向复杂城市环境的街道设施地理定位的随机生灭方法
AI总结 本文提出基于能量地图的随机生灭优化算法,用于精确定位城市街道设施,通过整合地理空间信息提升定位精度,验证了其在大规模设施映射中的可行性。
Comments Accepted for publication in the Proceedings of the 27th Irish Machine Vision and Image Processing Conference (IMVIP 2025)
基于采样的全局最优控制与估计通过半正定规划
AI总结 本文将KernelSOS理论应用于控制和机器人领域,解决实际应用中的重启策略、超参数校准等关键问题,并展示其在高维非参数轨迹优化中的优势。
CIS-BWE: 基于混沌的语音带宽扩展
AI总结 本文提出NDSI-BWE框架,利用六种基于非线性动力学系统的判别器捕捉语音的复杂时间行为,通过深度卷积实现参数减少,提升语音带宽扩展性能。
可扩展的多语言模型协作系统:基于检索的选择与探索-利用驱动增强
AI总结 本文提出SMCS系统,通过检索优先选择模块和探索-利用驱动后验增强模块,有效协调多个开源语言模型,实验显示其在多个任务中优于闭源模型,且在不同数据集上超越开源模型的平均最佳结果。
在真实世界中导航AI生成图像检测的挑战:真正重要的是什么?
AI总结 研究真实世界中AI生成图像检测的挑战,分析设计选择对检测性能的影响,提出优化方法并提升AUC 26.87%。
Comments ACM International Workshop on Multimedia AI against Disinformation 2026 (MAD 2026)
通过大语言模型实现人类样式的规划
AI总结 本文研究如何结合自然语言接口与拖放界面,利用大语言模型生成人类风格的动作序列,并与手工指定的动作序列进行比较。
Comments Accepted by the 2025 34th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN)
基于远监督的神经符号对象中心学习
AI总结 本文提出DeepObjectLog模型,通过概率神经符号方法实现对象中心学习,无需逐对象标签或掩码,提升对组合、对象计数和规则转移的泛化能力。
当代流行音乐中音高分析的方法:来自Vitalic音乐中和声音的多重音高
AI总结 研究探讨了当代流行音乐中单个和声复合音产生多个感知音高的现象,通过Vitalic等电子艺术家的作品示例,分析信号特征与音高感知之间的关系,并发现不同听众对多重模糊音高的感知存在显著差异。
Comments Pending review, Journal of the Audio Engineering Society
从生成音乐实验中洞察和声音调
AI总结 生成音乐AI旨在提升音乐创作,实验显示AI模型能生成结构化和声音调,揭示人类对和声的感知问题,推动音乐创造力与理论理解。
Comments 15th International Workshop on Machine Learning and Music, September 9, 2024, Vilnius, Lithuania
基于视觉的强化学习用于视觉推理
AI总结 本文提出ViGoRL,通过强化学习实现视觉推理,通过空间坐标锚定推理步骤,提升视觉定位和搜索性能,优于传统方法。
Comments Project website: https://visually-grounded-rl.github.io/
Smoothie: 通过令牌嵌入进行扩散平滑以实现文本生成
AI总结 本文提出Smoothie,通过基于语义相似性的逐步平滑令牌嵌入,结合连续潜在空间和分类单纯空间的优势,提升文本生成质量。
Comments 18 pages, 4 figures, 13 tables
TemplateRL: 结构化模板引导的强化学习用于大语言模型推理
AI总结 TemplateRL通过结构化模板引导强化学习提升大语言模型推理能力,通过MCTS构建问题解决模板库并整合到RL训练中,提高轨迹命中率并减少无效探索,实验显示在AIME和AMC上表现优于GRPO。
Comments Accepted by ACL 2026
KG-HTC:将知识图谱整合进LLMs以实现有效的零样本层次文本分类
AI总结 本文提出KG-HTC方法,通过整合知识图谱与大语言模型,解决层次文本分类中标注数据不足、标签空间大和长尾分布等问题,实验表明其在零样本设置下表现优异。
COCO-Inpaint:用于检测和定位基于修补的图像篡改的基准
AI总结 本文提出COCO-Inpaint基准,用于检测和定位基于修补的图像篡改,通过高质样本、多样场景和大规模覆盖,揭示修补与真实区域的内在不一致。
Comments 6 pages, 8 figures
在预算内搜索:具有10个延迟探针的HW-NAS
AI总结 本文提出一种两阶段HW-NAS框架,通过在合成设备上预训练控制器,再在目标设备上直接部署,利用少量高保真延迟测量实现目标设备架构设计,无需预收集信息。
中国模型会说中文吗?
AI总结 本文通过比较中西方开源大模型的多语言能力,发现中国模型在多数语言上表现与西方模型相似,但对部分中国少数民族语言识别能力较弱,揭示了多语言发展中的优先级与权衡。
Comments First and second author contribute equally
探索双层优化在校准神经网络中的潜力
AI总结 本文提出基于双层优化的神经网络校准方法,通过玩具数据集和模拟数据集验证其在提升预测置信度和减少校准误差方面的有效性,优于等价回归方法。
利用运动学方法和LSTM模型检测脚跟触地和脚尖离地事件
AI总结 本文评估了七种运动学方法和LSTM模型在检测脚跟触地和脚尖离地事件中的性能,发现Zeni等方法在运动学方法中准确率最高,而LSTM模型提供了无系统偏差的数据驱动替代方案。
Tube Loss:预测区间估计的一种新方法
AI总结 本文提出Tube Loss损失函数,用于回归任务中同时估计预测区间边界。该方法能渐近达到指定置信水平,允许用户调整区间位置以优化覆盖范围和宽度,适用于偏斜分布。
基于离散余弦变换的去相关注意力机制用于视觉Transformer
AI总结 本文提出基于DCT的去相关注意力机制,通过改进初始化策略和压缩技术提升视觉Transformer的效率和性能,实验表明在Swin Transformer上显著降低计算开销且保持性能。
Comments This paper has been accepted to IJCAI-ECAI 2026
对不平衡分类中平衡方法拉什蒙效应的实验研究
AI总结 本文研究了平衡方法对预测多样性的影响,通过拉什蒙效应发现平衡方法会增加预测多样性,提出扩展的性能-收益图来平衡训练数据。
Comments 16 pages, 6 figures
FM-G-CAM:计算机视觉中可解释AI的综合方法
AI总结 本文提出FM-G-CAM方法,通过综合考虑多个预测类别,提供CNN模型决策的全面解释,改进传统Grad-CAM的局限性。
联邦学习中的近似和加权数据重建攻击
AI总结 本文提出了一种基于插值的近似方法,用于攻击联邦学习中的联邦平均场景,通过生成客户端本地训练过程中的中间模型更新,改进数据重建质量,并通过实验验证了其在图像数据重建中的优越性。
生成语义通信:扩散模型超越位恢复
AI总结 本文提出一种新的生成扩散框架,利用扩散模型合成多媒体内容并保留语义特征,通过空间自适应归一化生成语义一致的场景,提升在信道噪声下的图像生成质量。
认知蒙特卡洛树搜索
AI总结 本文提出Epistemic MCTS,通过考虑认知不确定性提升搜索效率,在代码编写等稀疏奖励任务中表现更优。
动态环境中的拉马克继承:关键变量如何影响进化动态
AI总结 本文研究动态环境中关键变量对进化动态的影响,通过虚拟软机器人和两种学习方法,发现拉马克继承在环境变化冲突且不可预测时表现欠佳,但添加环境感知传感器可恢复其优势。
GRASP:学习多个人非语言互动中的社会推理
AI总结 GRASP通过连接高层社会问答与细粒度目光和指代手势事件,提升多个人非语言互动的社会推理能力,包含290万对问题-答案对,提出Social Grounding Reward提升模型性能。
Comments Project page: https://social-reaoning.github.io/grasp/