Continuous Audio Thinking for Large Audio Language Models
面向大型音频语言模型的连续音频思考
发表机构 * KAIST(韩国科学技术院)
AI总结 提出连续音频思考(CoAT)框架,通过专家蒸馏在连续潜在空间中组织声学信息,使音频语言模型在生成响应前利用丰富声学特征,无需额外自回归解码成本,在多个音频任务上提升性能。
Comments Preprint
面向大型音频语言模型的连续音频思考
发表机构 * KAIST(韩国科学技术院)
AI总结 提出连续音频思考(CoAT)框架,通过专家蒸馏在连续潜在空间中组织声学信息,使音频语言模型在生成响应前利用丰富声学特征,无需额外自回归解码成本,在多个音频任务上提升性能。
Comments Preprint
原生主动感知作为全模态理解的推理
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学) ; Qwen Team, Alibaba Group(阿里巴巴集团Qwen团队)
AI总结 提出OmniAgent,一种基于POMDP迭代观察-思考-行动循环的原生全模态智能体,通过主动感知将推理复杂度与视频时长解耦,在多个基准上达到开源模型最优性能。
Comments Accepted at ICML 2026. Code and models: https://github.com/harryhsing/omniagent
EMORSION:检验音频参数对电影中情感反应和沉浸感的影响
发表机构 * Queen Mary University of London(伦敦大学女王学院)
AI总结 通过操纵频率、动态和方向性三个音频参数,研究电影音频设计对观众情感和沉浸感的影响,发现细微变化可改变情感感知,非常规混音增加解读变异性。
Comments AES Europe 2026
任意空间音频采集与回放格式的通用转码框架
发表机构 * Faculty of Information Technology and Communication Sciences, Tampere University(信息科技与通讯科学学院,塔尔库大学) ; Department of Information and Communications Engineering, Aalto University(信息与通讯工程系,阿尔托大学)
AI总结 提出一种统一框架,通过估计时频域空间元数据(包括主成分和环境成分的角功率分布),实现从Ambisonic或原始麦克风阵列信号到任意目标回放格式的转码,支持独立旋转,实验证明其优于现有参数化渲染器。
Comments This work has been submitted to IEEE/ACM Transactions on Audio, Speech, and Language Processing for possible publication
通过去学习实现公平的认知障碍检测
发表机构 * University of Massachusetts Lowell, USA(马萨诸塞大学洛厄尔分校)
AI总结 提出一种多模态框架,结合跨模态融合和梯度反转去学习,减少人口统计信息对轻度认知障碍检测的偏见,在跨语言数据集上缩小性能差距。
Comments Interspeech 2026
缓解语音痴呆评估中的评分错误并补偿非语言子测试
AI总结 研究通过融合转录分数和Whisper嵌入减少语音评估中的评分错误,并利用融合表示近似专家整体评分以补偿缺失的运动子测试,有效区分认知状态组。
Comments Accepted at INTERSPEECH 2026
自适应语音到脉冲编码用于脉冲神经网络
发表机构 * PI LLC(1 PI LLC)
AI总结 提出一种可学习的残差语音到脉冲编码器,与R-LIF骨干网络联合训练,在GSC-v2上达94.97%准确率,参数高效且学习任务对齐的脉冲表示。
Comments Accepted at Interspeech 2026. This version is a preprint