arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

检索范围排序方式

检索时间范围

重置

HOT 人工智能、机器人等 9

cs.AI 人工智能 cs.CV 计算机视觉 cs.CL 自然语言处理 cs.RO 机器人 cs.LG 机器学习 cs.SD 声音 cs.ET 新兴技术 eess.AS 音频语音 eess.IV 图像视频

CS 计算机 41

cs 计算机 cs.AI 人工智能 cs.AR 硬件架构 cs.CC 计算复杂性 cs.CE 计算工程 cs.CG 计算几何 cs.CL 自然语言处理 cs.CR 密码安全 cs.CV 计算机视觉 cs.CY 计算机与社会 cs.DB 数据库 cs.DC 分布式计算 cs.DL 数字图书馆 cs.DM 离散数学 cs.DS 数据结构 cs.ET 新兴技术 cs.FL 形式语言 cs.GL 综述文献 cs.GR 图形学 cs.GT 博弈论 cs.HC 人机交互 cs.IR 信息检索 cs.IT 信息论 cs.LG 机器学习 cs.LO 计算机逻辑 cs.MA 多智能体 cs.MM 多媒体 cs.MS 数学软件 cs.NA 数值分析 cs.NE 神经进化 cs.NI 网络架构 cs.OH 其他计算机 cs.OS 操作系统 cs.PF 性能 cs.PL 编程语言 cs.RO 机器人 cs.SC 符号计算 cs.SD 声音 cs.SE 软件工程 cs.SI 社会信息网络 cs.SY 系统控制

ECON 经济学 4

econ 经济学 econ.EM 计量经济 econ.GN 一般经济 econ.TH 理论经济

EESS 电气与系统 5

eess 电气与系统 eess.AS 音频语音 eess.IV 图像视频 eess.SP 信号处理 eess.SY 系统控制

MATH 数学 33

math 数学 math.AC 交换代数 math.AG 代数几何 math.AP 偏微分方程 math.AT 代数拓扑 math.CA 经典分析 math.CO 组合数学 math.CT 范畴论 math.CV 复变函数 math.DG 微分几何 math.DS 动力系统 math.FA 泛函分析 math.GM 一般数学 math.GN 一般拓扑 math.GR 群论 math.GT 几何拓扑 math.HO 历史综述 math.IT 信息论 math.KT K理论 math.LO 逻辑 math.MG 度量几何 math.MP 数学物理 math.NA 数值分析 math.NT 数论 math.OA 算子代数 math.OC 优化控制 math.PR 概率 math.QA 量子代数 math.RA 环与代数 math.RT 表示论 math.SG 辛几何 math.SP 谱理论 math.ST 统计理论

PHYSICS 物理 55

astro-ph 天体物理 astro-ph.CO 宇宙学 astro-ph.EP 地球行星 astro-ph.GA 星系物理 astro-ph.HE 高能天体 astro-ph.IM 天文仪器 astro-ph.SR 太阳恒星 cond-mat 凝聚态 cond-mat.dis-nn 无序神经 cond-mat.mes-hall 介观纳米 cond-mat.mtrl-sci 材料科学 cond-mat.other 其他凝聚态 cond-mat.quant-gas 量子气体 cond-mat.soft 软凝聚态 cond-mat.stat-mech 统计力学 cond-mat.str-el 强关联电子 cond-mat.supr-con 超导 gr-qc 广义相对论 hep-ex 高能实验 hep-lat 格点高能 hep-ph 高能唯象 hep-th 高能理论 math-ph 数学物理 nlin 非线性科学 nlin.AO 自适应系统 nlin.CD 混沌动力学 nlin.CG 胞自动机 nlin.PS 斑图孤子 nlin.SI 可积系统 nucl-ex 核物理实验 nucl-th 核物理理论 physics 物理 physics.acc-ph 加速器物理 physics.ao-ph 大气海洋 physics.app-ph 应用物理 physics.atm-clus 原子分子团簇 physics.atom-ph 原子物理 physics.bio-ph 生物物理 physics.chem-ph 化学物理 physics.class-ph 经典物理 physics.comp-ph 计算物理 physics.data-an 数据分析 physics.ed-ph 物理教育 physics.flu-dyn 流体动力学 physics.gen-ph 普通物理 physics.geo-ph 地球物理 physics.hist-ph 物理史哲 physics.ins-det 仪器探测 physics.med-ph 医学物理 physics.optics 光学 physics.plasm-ph 等离子体 physics.pop-ph 科普物理 physics.soc-ph 物理与社会 physics.space-ph 空间物理 quant-ph 量子物理

Q-BIO 定量生物 11

q-bio 定量生物 q-bio.BM 生物分子 q-bio.CB 细胞行为 q-bio.GN 基因组学 q-bio.MN 分子网络 q-bio.NC 神经认知 q-bio.OT 其他定量生物 q-bio.PE 种群进化 q-bio.QM 定量方法 q-bio.SC 亚细胞过程 q-bio.TO 组织器官

Q-FIN 定量金融 10

q-fin 定量金融 q-fin.CP 计算金融 q-fin.EC 经济学 q-fin.GN 一般金融 q-fin.MF 数学金融 q-fin.PM 投资组合 q-fin.PR 证券定价 q-fin.RM 风险管理 q-fin.ST 统计金融 q-fin.TR 交易微观结构

STAT 统计 7

stat 统计 stat.AP 统计应用 stat.CO 统计计算 stat.ME 统计方法 stat.ML 机器学习 stat.OT 其他统计 stat.TH 统计理论

2605.13651 2026-05-14 cs.SD cs.AI 版本更新

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

Zhongju Yuan, Geraint Wiggins, Dick Botteldooren

发表机构 * WAVES Research Group, Ghent University, Gent, Belgium（根特大学WAVES研究组，比利时根特）； AI Lab, Vrije Universiteit Brussel, Brussel, Belgium（布鲁塞尔自由大学AI实验室，比利时布鲁塞尔）； EECS, Queen Mary University of London, London, UK（伦敦大学学院女王学院电子工程与计算机科学系，英国伦敦）

AI总结本文提出了一种无需训练的神经听觉注意力认知架构NAACA，用于解决长时音频中显著事件检测的注意力瓶颈问题。其核心是受神经系统启发的振荡工作记忆（OWM），能够通过感知显著性触发高层语言模型处理，从而提升事件检测精度并减少不必要的计算。实验表明，NAACA在XD-Violence数据集上显著提升了检测性能，并在城市声景数据集上表现出对噪声和突发停顿的良好鲁棒性。

Comments Accepted as a regular paper by ICML 2026

2605.13431 2026-05-14 cs.SD 版本更新

Text2Score: Generating Sheet Music From Textual Prompts

Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton

发表机构 * Queen Mary University of London（伦敦女王学院）； Singapore University of Technology and Design（新加坡科技设计大学）； Politecnico di Milano（米兰理工大学）； EmotionWave（情绪波）

AI总结本文提出 Text2Score，一个用于从自然语言提示生成乐谱的两阶段框架，旨在解决文本驱动符号音乐生成中数据稀缺和自动标注不可靠的问题。该方法通过直接从符号化 XML 数据中提取监督信号，绕过了传统文本-音乐对的噪声和稀疏性问题，分为规划阶段和执行阶段：规划阶段利用大语言模型生成结构化的乐谱计划，执行阶段则生成符合该计划的 ABC 符号乐谱。实验表明，Text2Score 在可玩性、可读性等多个评估维度上均优于现有方法，并开源了数据集、代码及评估工具。

Comments 8 pages including references, 1 figure

2605.13404 2026-05-14 cs.SD 版本更新

Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-to-Audio Drum Rendering

Konstantinos Soiledis, Maximos Kaliakatsos Papakostas, Dimos Makris, Konstantinos Tsamis

发表机构 * Dept. of Music Technology and Acoustics, Hellenic Mediterranean University（音乐技术与声学系，希腊地中海大学）； Athena RC（雅典研究中心）

AI总结该研究提出了一种名为Sec2Drum-DAC的条件潜扩散模型，用于从符号控制信息生成鼓声音频。该模型通过在物理时间点采样事件特征，并预测冻结DAC编码本嵌入的主成分坐标，而非直接生成波形样本，从而在保持节奏和力度信息的同时生成逼真的音频。实验表明，该方法在多个评估指标上优于确定性PCA回归和符号渲染基线，尤其在音谱和瞬态特性方面表现突出。

2603.02245 2026-05-14 eess.AS cs.LG cs.SD 版本更新

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin Bouchard

发表机构 * University of Ottawa（渥太华大学）； Crynostics Inc.（Crynostics公司）

AI总结本文研究了跨领域婴儿哭声分类问题，针对信号非平稳、标注有限及领域差异大的挑战，提出了一种融合MFCC、STFT和基频特征的紧凑声学框架，并采用增强的Legendre记忆单元（LMU）建模时序动态。通过引入校准的后验集成融合方法，有效提升了模型在不同数据集上的泛化能力，实验表明该方法在跨域评估中取得了更好的宏F1分数，并具备实时部署的可行性。

Comments 7 pages, to appear in Proc. Int. Conf. IEEE Engineering in Medicine and Biology Society (EMBC 2026), Toronto, Canada, July 26-30 2026

2602.16253 2026-05-14 eess.AS cs.SD 版本更新

How Much Does Machine Identity Matter in Anomalous Sound Detection at Test Time?

Kevin Wilkinghoff, Keisuke Imoto, Zheng-Hua Tan

发表机构 * Aalborg University（奥胡斯大学）； Pioneer Centre for Artificial Intelligence（先锋人工智能中心）； Kyoto University（京都大学）

AI总结本文研究了在测试阶段缺乏机器身份信息时，对异常声音检测（ASD）性能的影响。作者提出了一种修改后的评估方法，将多台机器的测试录音合并处理，不依赖机器身份进行推理，仅在事后评估中使用身份标签。实验表明，这种方法揭示了传统评估下隐藏的性能下降和方法鲁棒性差异，并发现这些下降与模型隐含的机器识别准确性密切相关。

2512.20211 2026-05-14 cs.SD eess.AS eess.SP 版本更新

Aliasing-Free Neural Audio Synthesis

Yicheng Gu, Junan Zhang, Chaoren Wang, Jerry Li, Zhizheng Wu, Lauri Juvela

发表机构 * Aalto University School of Science（阿alto大学科学学院）； Aalto University（阿alto大学）； School of Data Science, The Chinese University of Hong Kong, Shenzhen（香港中文大学（深圳）数据科学学院）； Spellbrush, Akihabara, Tokyo（东京秋叶原Spellbrush）

AI总结在神经音频合成中，现有模型在生成高质量音乐和人声演唱时常因非线性激活函数和上采样层引入严重的混叠伪影而表现不足。本文将可微分的抗混叠技术引入激活和上采样模块，提出Pupu-Vocoder和Pupu-Codec模型，有效提升了音频重建质量。实验表明，新模型在音乐、人声演唱和通用音频任务中优于现有系统，在语音任务上也保持了相近性能。

Comments Accepted by TASLP

2502.20427 2026-05-14 cs.CR cs.AI cs.SD eess.AS 版本更新

DeePen: Penetration Testing for Audio Deepfake Detection

Nicolas Müller, Piotr Kawa, Adriana Stan, Thien-Phuc Doan, Souhwan Jung, Wei Herng Choong, Philip Sperl, Konstantin Böttinger

发表机构 * Technical University of Cluj-Napocay（克卢日-纳波卡技术大学）； AISRC, Soongsil University（Soongsil大学人工智能研究中心）

AI总结本文提出了一种名为DeePen的系统化渗透测试方法，用于评估基于机器学习的深度伪造音频检测分类器的鲁棒性。该方法无需了解或接触目标检测模型，而是通过一系列精心设计的信号处理攻击来测试模型的漏洞。研究发现，无论是实际部署的系统还是公开的学术模型，均存在可被简单操作（如时间拉伸或添加回声）欺骗的弱点，表明当前的深度伪造检测技术仍面临严峻挑战。

2605.13099 2026-05-14 cs.SD 版本更新

Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval

Boda Xiao, Bo Wang, Heping Cheng

发表机构 * Center for BioMed-X Research, Academy for Advanced Interdisciplinary Studies, Peking University（北京大学生物医学交叉研究学院，先进跨学科研究学院）； Speech and Hearing Research Center, School of Intelligence Science and Technology, Peking University（北京大学智能科学与技术学院语音听力研究中心）； State Key Laboratory of General Artificial Intelligence, Beijing, China（一般人工智能国家重点实验室，中国北京）； National Biomedical Imaging Center, State Key Laboratory of Membrane Biology, Institute of Molecular Medicine, Peking-Tsinghua Center for Life Sciences, College of Future Technology, Peking University（国家生物医学成像中心，膜生物学国家重点实验室，分子医学研究院，北京大学-清华大学生命科学学院，未来技术学院，北京大学）

AI总结本文研究如何从非侵入式脑信号（MEG）中检测语音内容，提出了一种无需直接重建语音信号的新方法。该方法首先利用对比学习模型从大规模音频库中检索与测试MEG信号匹配的语音片段，再通过语音检测模型生成静音与语音的二值序列。该方法在LibriBrain 2025语音检测任务中取得了优异成绩，验证了借助外部音频数据库进行语音检测的有效性。

Comments ranked first at LibriBrain Competition 2025 https://neural-processing-lab.github.io/2025-libribrain-competition/prizes/

2603.05094 2026-05-14 cs.SD 版本更新

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin, Ke-Han Lu, Wenze Ren, Xie Chen, Hung-yi Lee

发表机构 * National Taiwan University（国立台湾大学）； Shanghai Jiao Tong University（上海交通大学）

AI总结本文提出TW-Sound580K，一个通过验证-生成-批评（VGC）流程构建的台湾地区音频-文本指令数据集，旨在解决大型音频-语言模型在处理本地化方言韵律时因缺乏专用语料而表现不佳的问题。该数据集利用双ASR验证筛选出522,000个原始音频片段，并扩展为580,000对高质量指令对。基于该数据集训练的Tai-LALM模型在TAU基准测试中取得了49.1%的准确率，较零样本基线提升了6.5%，验证了结合区域性语料与严格筛选及动态仲裁策略对提升本地化语音任务性能的有效性。

2601.22792 2026-05-14 eess.AS cs.CL cs.SD 版本更新

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Muhammad Shakeel, Yosuke Fukumoto, Chikara Maeda, Chyi-Jiunn Lin, Shinji Watanabe

发表机构 * Honda Research Institute Japan Co., Ltd.（本田研究院日本株式会社）； Carnegie Mellon University（卡内基梅隆大学）

AI总结本文提出了一种名为CALM的联合上下文声学-语言建模框架，用于多说话人自动语音识别（ASR）的个性化处理。该方法通过说话人嵌入驱动的目标说话人提取和基于动态词汇表的上下文偏置，实现了声学与语言线索的联合建模。实验结果表明，CALM在英语和日语的混合语音数据集上显著降低了有偏错误率，验证了其在多语言场景下的有效性。

Comments Accepted to IEEE ICASSP 2026

2508.20474 2026-05-14 eess.AS cs.CL cs.SD 版本更新

Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder

Muhammad Shakeel, Yui Sudo, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe

发表机构 * Honda Research Institute Japan, Japan（本田研究院日本）； Carnegie Mellon University, USA（卡内基梅隆大学）

AI总结本文提出了一种统一的多说话人编码器（UME），通过共享的语音基础编码器同时学习说话人分轨（SD）、语音分离（SS）和多说话人语音识别（ASR）任务的表示。该方法利用UME多层隐藏表示的残差加权求和编码（RWSE），有效融合不同语义层次的信息，增强任务间的对齐与协同。实验表明，UME在LibriMix数据集上显著优于单独训练的基线模型，尤其在SD任务上取得了1.37%和2.29%的分轨错误率，优于先前研究结果。

Comments Accepted to IEEE ASRU 2025

2411.15913 2026-05-14 cs.SD cs.AI cs.LG eess.AS 版本更新

Repurposing Image Diffusion Models for Training-Free Music Style Transfer on Mel-spectrograms

Heehwan Wang, Joonwoo Kwon, Sooyoung Kim, Jungwoo Seo, Shinjae Yoo, Yuewei Lin, Jiook Cha

发表机构 * Seoul National University（首尔国立大学）； Michigan State University（密歇根州立大学）； Rutgers University（罗格斯大学）； Brookhaven National Laboratory（布鲁克海文国家实验室）

AI总结该研究提出了一种无需训练的音乐风格迁移方法Stylus，通过复用预训练的图像扩散模型，在梅尔频谱图域实现音乐风格迁移。该方法将音频视为结构化的时频图像，通过注入风格键值对操控自注意力机制，同时保留源音频的结构查询，从而在保持内容结构的同时实现风格迁移。实验表明，Stylus在内容保留和感知质量上均优于现有方法，验证了通用图像先验在结构化梅尔频谱图无训练迁移中的有效性。

Comments Accepted by ICIP 2026