arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.12387 2026-05-13 cs.SD cs.LG 版本更新

A Semi-Supervised Framework for Speech Confidence Detection using Whisper

Adam Wynn, Jingyun Wang

发表机构 * Department of Computer Science（计算机科学系）

AI总结本文提出了一种半监督框架，用于利用Whisper模型进行语音自信度检测，旨在解决因标注数据有限和副语言标注主观性强而导致的挑战。该框架融合了Whisper编码器提取的深层语义嵌入，以及由eGeMAPS描述符和语音压力、不流畅性概率估计构成的可解释声学特征向量，并引入了一种不确定性感知的伪标签策略以减少对标注数据的依赖。实验表明，该方法在Macro-F1指标上达到0.751，优于多个自监督基线模型，并在小样本类别上提升了3%，验证了显式韵律和辅助特征对提升自信度检测性能的重要作用。

Comments 12 pages, 9 Figures, Submitted to IEEE Transactions on Audio, Speech and Language Processing

2605.12310 2026-05-13 cs.SD 版本更新

Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

Chen Geng, Meng Chen, Ruohua Zhou, Ruolan Liu, Weifeng Zhao

发表机构 * School of Intelligence Science and Technology（智能科学与技术学院）； Beijing University of Civil Engineering and Architecture（北京建筑大学）； Lyra Lab, Tencent Music Entertainment（腾讯音乐娱乐Lyra实验室）； Beijing Key Laboratory of Super Intelligent Technology for Urban Architecture（北京超智能城市建筑技术重点实验室）

AI总结本文提出了一种名为 Poly-SVC 的多声部感知歌唱语音转换系统，旨在在保留歌词和旋律的前提下，将源歌手的歌声转换为目标歌手的声音。该方法创新性地处理了伴奏录音中的残余和声问题，通过基于常数 Q 变换的音高提取器、随机采样器以及基于条件流匹配的扩散解码器，实现了对旋律与和声特征的融合，从而生成自然且富有表现力的多声部输出。实验表明，Poly-SVC 在自然度、音色相似性和和声重建方面均优于现有基线模型。

Comments Accepted by ICASSP 2026

2605.12287 2026-05-13 eess.AS cs.SD 版本更新

The SMC Blind Spot: A Failure Mode Analysis of State-of-the-Art Beat Tracking

Jaehoon Ahn, Tae Gum Hwang, Moon-Ryul Jung

发表机构 * Sogang University（ソガン大学）

AI总结近年来，基于深度神经网络的节拍跟踪模型在主流打击乐数据集上表现出色，但在SMC数据集上却始终表现不佳。本文分析了当前最先进的模型在SMC数据集中的失败模式，发现其主要问题包括八度错误、连续性错误以及整体跟踪失败，并指出这些模型容易产生“自信但错误”的激活结果。研究还揭示了标准DBN模型因默认最低节拍限制导致对21%的SMC曲目无法正确推断节拍，从而影响了整体性能，为改进节拍和强拍检测提供了具体方向。

Comments 6 pages, 3 figures. Technical report on beat tracking failure modes; prepared for ISMIR 2026

2605.12135 2026-05-13 cs.SD cs.LG eess.AS 版本更新

STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts

Joshua Opria

发表机构 * Independent Researcher（独立研究者）

AI总结本文提出STRUM模型，一种无需任何人工标注元数据即可将原始音频转换为可玩的节奏游戏图表（如Clone Hero和YARG）的端到端系统，支持鼓、吉他、贝斯、人声和键盘等乐器。STRUM采用多阶段混合方法，结合卷积循环神经网络（CRNN）进行鼓声起始检测、神经网络进行吉他和贝斯的单音音高跟踪、词对齐的语音识别处理人声，并利用频谱分析检测键盘音符。实验在基于音频质量筛选的30首歌曲数据集上进行，取得了较高的F1分数，并对模型组件进行了全面消融分析。

Comments 9 pages, 4 figures, 3 tables. Code and models: https://github.com/<your-github-username>/autocharter

2601.09448 2026-05-13 cs.SD cs.AI 版本更新

One Prompt, Many Sounds: Modeling Listener Variability in LLM-Based Equalization

Ioannis Stylianou, Jon Francombe, Pablo Martinez-Nuevo, Sven Ewan Shepstone, Zheng-Hua Tan

发表机构 * Bang & Olufsen A/S, Struer, Denmark（丹麦Bang & Olufsen A/S公司，Struer）； Department of Electronic Systems, Aalborg University（奥胡斯大学电子系统系）； Pioneer Centre for AI, Copenhagen, Denmark（哥本哈根先锋人工智能中心）

AI总结本文提出了一种基于大语言模型（LLM）的音频均衡方法，通过自然语言提示映射到均衡设置，实现了对声音系统的对话式控制。该方法利用受控听音实验收集的数据，结合上下文学习和参数高效微调技术，使模型能够可靠地对齐人群偏好的均衡设置。实验结果表明，与随机采样和静态预设基线相比，该方法在分布对齐方面有显著提升，展示了LLM作为“人工均衡器”的潜力，为更易用、上下文感知和专家级的音频调音方法提供了新方向。

Comments 13 pages, 15 figures, 2 tables, IEEE JSTSP submission

2511.10670 2026-05-13 cs.CL cs.AI cs.SD 版本更新

Towards Fine-Grained Code-Switch Speech Translation with Semantic Space Alignment

Yan Gao, Yazheng Yang, Zhibin Lan, Yidong Chen, Min Zhang, Daimeng Wei, Derek F. Wong, Jinsong Su

发表机构 * School of Informatics, Xiamen University, China（厦门大学信息学院）； Huawei Translation Services Center, Beijing, China（华为翻译服务中心）； NLP 2 CT Lab, Department of Computer and Information Science, University of Macau（澳门大学计算机与信息科学系NLP 2 CT实验室）

AI总结该研究旨在解决代码混用（Code-switching）语音翻译中的细粒度语义建模难题，提出了一种结合专家混合（MoE）结构的语音投影方法，通过语言专家组对不同语言的语义空间进行精细化建模。研究引入了语言特定损失和组内负载均衡损失，以提升模型效率，并采用多阶段训练策略，结合现有自动语音识别和单语翻译数据，增强对齐效果和翻译性能。实验表明，该方法在多个数据集上显著优于现有模型，BLEU和COMET指标均有明显提升。

Comments Accepted to IJCAI 2026 Main Track

2509.13548 2026-05-13 cs.SD eess.AS stat.ML 版本更新

Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers

Manan Mittal, Thomas Deppisch, Joseph Forrer, Chris Le Sueur, Zamir Ben-Hur, David Lou Alon, Daniel D. E. Wong

发表机构 * Stony Brook University（史泰森布鲁克大学）； Chalmers University of Technology（挑战大学）； Reality Labs Research, Meta（现实实验室研究，Meta）

AI总结本文提出了一种基于专家混合框架的新型方法，用于增强移动说话人声源的视野感知双耳渲染。该方法通过隐式定位在线融合多个双耳滤波器，实现了对连续运动声源的实时追踪与增强，能够在保持自然双耳线索的同时，突出或抑制特定方向的声音。与传统依赖到达方向估计或基于Ambisonics域的方法不同，该信号依赖框架具有阵列结构无关性，适用于下一代消费音频设备中的空间音频捕获与个性化播放。

Comments 5 pages, 3 figures

2412.13050 2026-05-13 cs.LG cs.AI cs.CL cs.CV cs.SD eess.AS 版本更新

Modality-Inconsistent Continual Learning of Multimodal Large Language Models

Weiguo Pian, Shijian Deng, Shentong Mo, Mingrui Liu, Yunhui Guo, Yapeng Tian

发表机构 * The University of Texas at Dallas（德克萨斯大学达拉斯分校）； Carnegie Mellon University（卡内基梅隆大学）； George Mason University（乔治·梅森大学）

AI总结本文提出了一种新的多模态大语言模型持续学习场景——模态不一致持续学习（MICL），该场景涉及图像、音频或视频等不一致模态以及图文生成或问答等不同任务类型的持续学习任务。为应对模态和任务类型变化带来的灾难性遗忘问题，研究提出了MoInCL方法，通过伪目标生成模块和基于指令的知识蒸馏技术，有效缓解了模态和任务类型变化对模型性能的影响。实验结果表明，MoInCL在多个任务上优于现有的持续学习方法，具有显著优势。

Comments Accepted at Transactions on Machine Learning Research (TMLR), 2026

2605.11286 2026-05-13 eess.SP cs.SD eess.AS 版本更新

Adaptive Diagonal Loading using Krylov Subspaces for Robust Beamforming

Manan Mittal, Ryan M. Corey, John R. Buck, Andrew C. Singer

发表机构 * Stony Brook University（史泰森布鲁克大学）； University of Illinois Chicago（伊利诺伊大学芝加哥分校）； University of Massachusetts Dartmouth（马萨诸塞大学达特茅斯分校）

AI总结本文针对大阵列麦克风在动态声学环境中进行自适应波束成形时面临的数据快照不足问题，提出了一种基于Krylov子空间的自适应对角加载方法。该方法利用Lanczos迭代构建小规模Krylov子空间，将协方差矩阵投影到低维三对角矩阵，从而高效估计其极值特征值，显著降低了计算复杂度。实验表明，该方法在保证波束成形性能和白噪声增益严格约束的同时，计算成本仅为传统特征值分解方法的很小一部分。

Comments 5 pages, 8 figures

2605.11192 2026-05-13 cs.SD cs.AI cs.LG 版本更新

Exploring Token-Space Manipulation in Latent Audio Tokenizers

Francesco Paissan, Luca Della Libera, Mirco Ravanelli, Cem Subakan

发表机构 * Mila – Québec AI Institute（魁北克人工智能研究所）； Université Laval（拉瓦尔大学）； Concordia University（康科迪亚大学）

AI总结本文研究了在潜空间音频编码器中对 token 空间进行操作的可能性，提出了一种名为 LATTE 的新型音频 tokenizer，通过引入可学习的潜空间 token 来实现对全局语音特征的编辑。该方法在保持高质量语音重建的同时，使得通过替换 token 来修改说话人身份或背景噪声等全局属性成为可能，并在语音转换和去噪任务中验证了其有效性，为无监督的可控音频编辑提供了新思路。

2605.11098 2026-05-13 cs.SD 版本更新

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

Jiacheng Shi, Hongfei Du, Xinyuan Song, Y. Alicia Hong, Yanfu Zhang, Ye Gao

发表机构 * College of William & Mary（威廉姆斯与玛丽学院）； Emory University（埃默里大学）； George Mason University（乔治·梅森大学）

AI总结 AffectCodec 是一种用于情感表达语音建模的情绪感知神经语音编解码器，旨在在量化过程中保留语音中的情感信息。该方法通过结合情感语义引导的潜在调制、关系保持的情感语义蒸馏和情感加权语义对齐，实现了在压缩过程中保持语义保真度和韵律自然性的同时保留情感关键线索。实验表明，AffectCodec 在语音重建、情感识别和下游文本到语音生成任务中均表现出更优的情感一致性和感知质量。

Comments Accepted to ACL Findings 2026

2602.16416 2026-05-13 eess.AS cs.SD 版本更新

Online Single-Channel Audio-Based Sound Speed Estimation for Robust Multi-Channel Audio Control

Andreas Jonas Fuglsig, Mads Græsbøll Christensen, Jesper Rindom Jensen

AI总结该研究旨在解决多通道音频控制中因声速变化导致的系统性误差问题。提出了一种基于单通道音频的在线声速估计方法，无需额外校准或多个麦克风，在播放音频过程中实时估计声速。该方法通过最小化实际音频与参数化声学模型之间的差异来估计声速，实验表明其能有效跟踪不同输入信号下的声速变化，并提升空间音频控制的性能。

Comments Accepted for publication at EUSIPCO 2026

2402.07619 2026-05-13 cs.SD cs.AI eess.AS 版本更新

Developing a Multi-variate Prediction Model For COVID-19 From Crowd-sourced Respiratory Voice Data

Yuyang Yan, Wafaa Aljbawi, Sami O. Simons, Visara Urovi

发表机构 * Institute of Data Science, Maastricht University（数据科学研究所，马斯特里赫特大学）； Department of Respiratory Medicine, Maastricht University Medical Center, Maastricht University（呼吸科部门，马斯特里赫特大学医学中心，马斯特里赫特大学）

AI总结该研究旨在开发一种基于众包呼吸道语音数据的多变量深度学习模型，用于检测 COVID-19。研究利用 Cambridge COVID-19 Sound 数据库中的语音样本，提取包括梅尔频谱图、MFCC 和 CNN 编码器特征等多种语音特征，并构建了 LSTM、CNN 和 HuBERT 等深度学习分类模型进行疾病识别。实验结果表明，HuBERT 模型在准确率和 AUC 指标上均优于传统机器学习方法，达到了 86% 和 0.93，展示了语音数据在 COVID-19 诊断中的巨大潜力。

Comments arXiv admin note: text overlap with arXiv:2209.03727