arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

Marius Miron, David Robinson, Masato Hagiwara, Titouan Parcollet, Jules Cauzinille, Gagan Narula, Milad Alizadeh, Ellen Gilsenan-McMahon, Sara Keen, Emmanuel Chemla, Benjamin Hoffman, Maddie Cusimano, Diane Kim, Felix Effenberger, Jane K. Lawton, Aza Raskin, Olivier Pietquin, Matthieu Geist

发表机构 * Earth Species Project（地球物种项目）

AI总结本文研究了不同探针策略对生物声学任务中音频表征迁移性能的影响，提出使用多层注意力探针可以更有效地利用时间信息，提升模型在下游任务中的表现。研究对比了线性探针和注意力探针在多个生物声学基准上的性能，发现多层探针优于传统的单层探针，尤其在Transformer模型中，注意力探针显著优于线性探针。该工作为评估和提升音频表征的可迁移性提供了新的方法和见解。

2605.10281 2026-05-12 cs.SD cs.AI 版本更新

Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

Konstantinos Soiledis, Maximos Kaliakatsos-Papakostas, Dimos Makris, Konstantinos Tsamis

发表机构 * Dept. of Music Technology and Acoustics, Hellenic Mediterranean University（音乐技术与声学系，希腊地中海大学）

AI总结本文研究如何从带有微时值和力度信息的表达性鼓点网格（MIDI表示）直接生成逼真的鼓音频，提出了一种基于神经音频编解码器的方法。该方法使用基于Transformer的模型将鼓点网格映射为编解码器的离散码元序列，并通过预训练的编解码器解码器生成波形音频。实验表明，该方法在大型人类鼓演奏数据集E-GMD上表现出良好的音频保真度和音乐对齐性，为鼓点到音频的生成提供了有效途径，并为打击乐合成中的音频码元选择提供了实用参考。

2605.10256 2026-05-12 cs.SD cs.AI 版本更新

A Cold Diffusion Approach for Percussive Dereverberation

Dimos Makris, András Barják, Maximos Kaliakatsos-Papakostas

发表机构 * Department of Music Technology（音乐技术系）； Acoustics Hellenic Mediterranean University（声学希伯伦地中海大学）

AI总结本文提出了一种用于打击乐去混响的冷扩散框架，针对当前音频去混响研究主要集中在语音而忽视打击乐信号的问题，通过将混响建模为从无混响信号到混响信号的确定性退化过程，逐步生成混响效果。研究引入了两种逆过程参数化方法，并采用UNet和扩散Transformer作为模型架构，在包含真实和电子鼓录音的数据集上进行训练与评估，实验表明该方法在多个指标上优于现有的基于分数和条件扩散的基线模型。

Comments Accepted for the 2026 IEEE World Congress on Computational Intelligence, IJCNN Track, 21-26 June 2026, Maastricht, the Netherlands

2605.10203 2026-05-12 cs.SD eess.AS 版本更新

Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration

Haowen Li, Tianxiang Li, Yi Yang, Boyu Cao, Qi Liu

发表机构 * School of Future Technology, South China University of Technology, Guangzhou, China.（未来技术学院，华南理工大学，广州，中国）

AI总结该研究提出了一种名为Polyphonia的零样本音色迁移框架，旨在解决多声部音乐中对特定音轨进行音色编辑时背景伴奏易被破坏的问题。其核心方法是引入基于声学信息的注意力校准机制，通过概率声学先验建立粗略边界，从而在保持非目标音轨语义完整性的同时，更精确地定位并修改目标音轨。实验表明，该方法在目标音轨对齐度上比现有方法提升了15.5%，同时保持了较高的音乐保真度和非目标音轨的完整性。

Comments Accepted by ICML 2026

2605.10153 2026-05-12 cs.SD cs.LG 版本更新

APEX: Audio Prototype EXplanations for Classification Tasks

Piotr Kawa, Kornel Howil, Piotr Borycki, Miłosz Adamczyk, Przemysław Spurek, Piotr Syga

发表机构 * Department of Artificial Intelligence, Wroclaw University of Science and Technology, Poland（华沙理工大学人工智能系）； Resemble AI, USA（Resemble AI公司）； IDEAS Research Institute, Poland（波兰IDEAS研究院）； Faculty of Mathematics and Computer Science, Jagiellonian University, Poland（雅盖隆大学数学与计算机科学系）； Doctoral School of Exact and Natural Sciences, Jagiellonian University, Poland（雅盖隆大学博士学院）

AI总结本文提出了一种名为APEX的音频分类解释框架，旨在解决当前音频领域可解释AI方法不足的问题。该方法基于预训练音频分类器，无需微调即可生成与原模型输出一致的解释结果。APEX通过将解释分解为时域、频域及时频联合四个视角，提供了更符合音频特性的直观解释，提升了分类结果的语义可理解性。

2602.10666 2026-05-12 eess.AS cs.LG cs.SD 版本更新

From Diet to Free Lunch: Estimating Auxiliary Signal Properties using Dynamic Pruning Masks in Speech Enhancement Networks

Riccardo Miccini, Clément Laroche, Tobias Piechowiak, Xenofon Fafoutis, Luca Pezzarossa

发表机构 * GN Hearing（GN听力）； Technical University of Denmark (DTU)（丹麦技术大学）

AI总结本文研究了如何在语音增强网络中利用动态通道剪枝（DynCP）生成的内部剪枝掩码来估计辅助信号属性，如语音活动检测（VAD）、噪声分类和基频（F0）估计，从而避免部署额外模型的需求。通过简单的可解释预测器，该方法在多个任务上取得了较高的准确率，且计算开销极小。研究不仅揭示了DynCP模型在下游任务中的学习行为，还提出了将其作为高效语音增强与信号属性联合估计的统一解决方案。

Comments Accepted for publication at the 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

2509.08031 2026-05-12 cs.SD cs.AI cs.LG eess.AS 版本更新

AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

Hoang Nguyen, Sidharth Surapaneni, Akshay Kalkunte, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Khyati Mahajan, Jash Shah, Shruthan Radhakrishna, Sathwik Tejaswi Madhusudhan, Vikas Yadav, Sai Rajeswar

发表机构 * ServiceNow ； University of Texas at Austin（德克萨斯大学奥斯汀分校）

AI总结随着大音频语言模型（LALMs）的快速发展，其评估工具仍面临效率低、标准化不足等问题，限制了模型的公平比较和系统评估。为此，本文提出AU-Harness，一个高效且全面的评估框架，通过优化的批量处理和并行执行，实现比现有工具快151%的评估速度，并提供标准化的提示协议和灵活配置，支持多轮对话分析，揭示LALMs的真实音频推理能力，推动模型的系统性发展。

2507.23511 2026-05-12 eess.AS cs.AI cs.CL cs.SD 版本更新

MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks

Yadong Niu, Tianzi Wang, Heinrich Dinkel, Xingwei Sun, Jiahao Zhou, Gang Li, Jizhong Liu, Xunying Liu, Junbo Zhang, Jian Luan

发表机构 * The Chinese University of Hong Kong, Hong Kong, China（香港中文大学）

AI总结本文提出MECAT，一个多专家构建的细粒度音频理解基准，旨在解决当前音频语言模型在细微理解层面的不足。该基准通过整合专业模型分析与链式推理大语言模型生成多视角、细粒度的描述和开放问答对，并引入新的评估指标DATE，以提升对模型输出细节程度的区分能力。实验表明，MECAT能够更准确地评估现有音频模型在细粒度理解任务中的表现与局限。

Comments Accepted to ICML 2026

2605.10084 2026-05-12 eess.AS cs.AI cs.LG cs.SD 版本更新

PoDAR: Power-Disentangled Audio Representation for Generative Modeling

Alejandro Luebs, Mithilesh Vaidya, Ishaan Kumar, Sumukh Badam, Stephen W. Bailey, Matthew Bendel, Jose Sotelo, Xingzhe He

发表机构 * Descript

AI总结本文提出了一种名为PoDAR的音频表示方法，通过显式地将信号功率与语义内容解耦，显著提升了音频潜在空间的可建模性。该方法利用随机功率增强和潜在一致性目标，使生成模型的收敛速度加快并提升生成质量。实验表明，PoDAR在多个指标上优于基线方法，同时扩展了条件生成的适用范围。

Comments 9 pages, 3 figures

2605.09908 2026-05-12 cs.LG cs.AI cs.SD 版本更新

Voice Biomarkers for Depression and Anxiety

Oleksii Abramenko, Noah D. Stein, Colin Vaz

发表机构 * Kintsugi Mindful Wellness, Inc.（Kintsugi Mindful Wellness公司）

AI总结本文研究如何从语音中检测抑郁和焦虑，提出了一种基于深度学习的方法，直接利用原始语音信号进行建模，避免了传统方法中依赖人工设计特征的局限。研究使用了一个包含约65,000条语料、来自23,000名美国代表性人群的大规模数据集进行训练，所提出的模型能够提取与内容无关的生物标志物信息，并与语音中的词汇特征结合，在实际应用中提升了预测性能。实验表明，该模型在约5000名独立测试者上实现了71%的灵敏度和特异性，并已开源发布以促进相关研究。

2605.09906 2026-05-12 cs.AI cs.SD 版本更新

Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought

Xuanchen Li, Yuheng Lu, Chenrui Cui, Tianrui Wang, Zikang Huang, Yu Jiang, Long Zhou, Longbiao Wang, Jianwu Dang

发表机构 * Tianjin Key Laboratory of Cognitive Computing（天津认知计算实验室）； Tianjin University（天津大学）； Huiyan Technology Company, Ltd.（慧颜科技有限公司）； Chinese Academy of Sciences（中国科学院）； Tencent（腾讯）

AI总结该研究针对音频-视觉大语言模型在推理过程中存在的跨模态干扰问题，提出了一种名为“先分离后融合”（SFFL）的新型推理框架。该方法通过强制进行模态特定的推理过程，分别生成音频和视觉的推理轨迹，并在后续阶段整合信息进行回答，从而减少模态间的信息干扰。实验表明，该方法在多个基准测试中显著提升了模型的准确性和鲁棒性。

2605.09846 2026-05-12 cs.SD cs.AI 版本更新

ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation

Yakun Liu, Hai Luan, Dong Liu, Zhiyu Jin

发表机构 * Department of Composition（作曲系）； Education Information Center（教育信息中心）； Department of Musicology（音乐学系）

AI总结在新媒体艺术创作中，视觉与听觉的映射往往具有主观性。本文提出了一种实时的视觉-听觉映射方法 ChladniSonify，用于生成克拉尼图案（Chladni patterns）的声学映射。该方法基于Kirchhoff-Love板理论构建数据集，并采用轻量级CNN结合CBAM模块实现高精度、低延迟的图案分类，最终在Python和Max/MSP中搭建了端到端系统，将识别出的图案映射到对应的正弦波频率，实现了零偏差的理论频率匹配与实时交互。

Comments 9 pages, 5 figures, IEEE conference format

2605.09259 2026-05-12 cs.SD cs.AI 版本更新

Remix the Timbre: Diffusion-Based Style Transfer Across Polyphonic Stems

Leduo Chen, Junchuan Zhao, Shengchen Li

AI总结本文研究了如何在多乐器混合音频中实现灵活的音色迁移，即在保持原旋律和节奏的前提下，将不同声部的音色转换为目标乐器。为此，作者提出了MixtureTT，这是首个直接从多乐器混合音频中进行逐声部音色迁移的系统，通过共享的扩散过程同时处理所有声部，有效避免了传统分步处理带来的错误累积和音色不协调问题。实验表明，MixtureTT在客观和主观指标上均优于单乐器方法，验证了跨声部建模在混合音色迁移中的重要性。

2605.02948 2026-05-12 cs.LG cs.AI cs.SD 版本更新

AsymTalker: Identity-Consistent Long-Term Talking Head Generation via Asymmetric Distillation

Yuxin Lu, Jiayang Sun, Guibo Zhu, Min Cao

AI总结 AsymTalker 是一种基于扩散模型的长时 talking head 生成方法，旨在解决现有方法在长时间视频生成中出现的身份不一致和时空对齐问题。该方法引入了时间参考编码（TRE）和非对称知识蒸馏（AKD），分别用于缓解静态身份参考与动态音频流之间的时空错位，以及解决分块生成过程中身份漂移的问题。实验表明，AsymTalker 在保证高保真度和身份一致性的同时，能够生成长达600秒的视频，并实现每秒66帧的实时推理速度，达到了当前最先进的性能。

2601.12248 2026-05-12 eess.AS cs.AI cs.CL cs.LG cs.SD 版本更新

AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering

Chun-Yi Kuan, Hung-yi Lee

AI总结 AQUA-Bench 是一个用于评估音频问答中不可答问题识别能力的新基准，旨在弥补现有评测体系对不可答问题关注不足的缺陷。该基准通过三个场景系统性地评估模型在缺失答案、答案与问题类别不匹配以及问题与音频内容无关等情况下的表现，从而更全面地衡量模型的可靠性与鲁棒性。实验表明，尽管现有模型在可答任务上表现良好，但在处理不可答问题时仍面临显著挑战，揭示了当前音频语言理解中的一个盲区。

Comments Accepted to ICASSP 2026 (Oral). Project Website: https://github.com/kuan2jiu99/aqua-bench

2601.02954 2026-05-12 cs.SD cs.AI 版本更新

The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models

Yuhuan You, Lai Wei, Xihong Wu, Tianshu Qu

AI总结这篇论文提出了一个名为“The World is Not Mono (TWNM)”的框架，旨在增强大型音频-语言模型对声音事件空间位置的理解能力。研究通过引入基于物理原理的First-Order Ambisonics（FOA）模拟，结合多通道音频学习空间感知表示，并融合语义特征，从而实现对声音场景的多层次分析。该方法在构建的基准测试中表现出色，显著提升了模型在空间定位、场景推理等任务上的性能。

Comments 25 pages, 4 figures

2511.17879 2026-05-12 cs.LG cs.SD 版本更新

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

Yusong Wu, Stephen Brade, Aleksandra Teng Ma, Tia-Jane Fowler, Enning Yang, Berker Banar, Aaron Courville, Natasha Jaques, Cheng-Zhi Anna Huang

AI总结本文研究了在实时人机音乐协作中，如何通过生成对抗后训练方法缓解强化学习后训练中的奖励黑客问题。作者提出了一种对抗性训练方法，在策略生成的轨迹上进行训练，以提升旋律到和声伴奏生成的多样性与适应性。实验表明，该方法有效提高了输出多样性、和声连贯性以及用户的互动体验。

Comments v3: fix the Figure numbering bugs

2510.19414 2026-05-12 eess.AS cs.AI cs.SD 版本更新

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

Tong Zhang, Yihuan Huang, Yanzhen Ren

AI总结随着语音深度伪造技术的广泛应用，电话诈骗和身份盗用等现实场景中的安全问题日益严重。现有反欺骗系统在实验室合成语音上表现良好，但在面对物理重放攻击时性能显著下降。为此，本文提出了EchoFake数据集，包含超过120小时、来自13000多名说话人的语音数据，涵盖先进的零样本文本到语音合成语音和多种设备及真实环境下的物理重放录音，有效提升了语音深度伪造检测模型的泛化能力与实际应用表现。

Comments ICASSP 2026

2509.20799 2026-05-12 cs.HC cs.SD 版本更新

AuthGlass: Benchmarking Voice Liveness Detection and Authentication on Smart Glasses via Comprehensive Acoustic Features

Weiye Xu, Zhang Jiang, Siqi Zheng, Xiyuxing Zhang, Changhao Zhang, Jian Liu, Weiqiang Wang, Yuntao Wang

AI总结随着智能眼镜的快速发展，语音交互因其自然性和便捷性被广泛应用，但其实际应用常受到欺骗攻击的威胁，且目前缺乏针对智能眼镜场景的语音活体检测与认证的公开数据集。为此，研究者收集了一个包含42名受试者16通道音频数据及两类攻击样本的多模态声学数据集，并提出了基于声场的活体检测方法AuthG-Live和多模态认证模型AuthG-Net。实验表明，该方法在四个基准任务中达到最先进水平，并通过消融实验验证了其在真实场景下的泛化能力，研究还发布了名为AuthGlass的数据集以推动相关领域的发展。

Comments Submitted to IMWUT 2026

2405.09570 2026-05-12 eess.SP cs.LG cs.SD eess.AS 版本更新

FunnelNet: An End-to-End Deep Learning Framework to Monitor Digital Heart Murmur in Real-Time

Md Jobayer, Md. Mehedi Hasan Shawon, Md Zakir Hossain, Shreya Ghosh, Imre Rudas, Tom Gedeon, Md Rakibul Hasan

AI总结本文提出了一种端到端的深度学习框架 FunnelNet，用于实时监测数字心音杂音。该方法结合传统滤波和深度可分离卷积网络，通过 Butterworth 滤波器和连续小波变换提取心音特征，并采用压缩、瓶颈和扩张三个网络模块实现高效特征学习。实验表明，该模型在儿科心音数据集上以仅 5.4k 参数取得了 85% 的准确率和 92% 的特异性，且在资源受限设备上实现了高实时检测性能，为医疗资源匮乏地区的便捷诊断提供了有效方案。

2605.09120 2026-05-12 cs.IR cs.SD 版本更新

Reddit2Deezer: A Scalable Dataset for Real-World Grounded Conversational Music Recommendation

Haven Kim, Julian McAuley

AI总结当前对话式音乐推荐（CMR）研究面临一个困境：真实对话语料规模有限，而合成语料虽能扩展规模但缺乏自然性。本文提出Reddit2Deezer，一个基于19万个独特{帖子，叶子评论}对构建的现实基础CMR数据集，包含原始版本和重述版本，每个音乐实体均关联Deezer标识符，便于获取音频预览和丰富元数据。该数据集经过人工验证，确保对话质量、物品关联性和重述准确性，为内容驱动的对话推荐研究提供了重要资源。

2605.09087 2026-05-12 cs.SD cs.LG 版本更新

Towards Trustworthy Audio Deepfake Detection: A Systematic Framework for Diagnosing and Mitigating Gender Bias

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. Avila

AI总结本文针对音频深度伪造检测系统中性别偏见问题，提出了一种系统性的诊断与缓解框架。研究发现，性别偏差主要源于声学表示差异、特征中的性别泄露以及评估结构的不对称性，而非训练数据不平衡。通过引入新的公平性正则化方法和阈值调整策略，有效减少了不公平性，同时保持检测准确率不受影响，为构建可信的音频深度伪造检测系统提供了重要指导。

Comments Submitted to SMC 2026 conference

2605.08762 2026-05-12 cs.SD cs.LG 版本更新

Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

Tao Yu, yiming ding, Shenghua Chai, Minghui Zhang, Zhongtian Luo, Xinming Wang, Xinlong Chen, Zhaolu Kang, Junhao Gong, Yuxuan Zhou, Haopeng Jin, Zhiqing Cui, Jiabing Yang, YiFan Zhang, Hongzhu Yi, Zheqi He, Xi Yang, Yan Huang, Liang Wang

AI总结当前跨模态基准主要评估模型在多种模态同时提供的场景下的表现，而从音频出发主动搜索跨模态证据的能力仍鲜有研究。本文提出Omni-DeepSearch，一个以音频驱动的跨模态深度搜索基准，要求模型从给定的音频片段和相关问题中提取线索，调用文本、图像和视频检索工具，进行多跳推理生成简短、客观且可验证的答案。该基准包含640个样本，涵盖四个检索目标模态和四种音频内容类型，并通过多阶段过滤流程确保任务难度与挑战性，实验表明当前最先进的模型在该任务上的平均准确率仅为43.44%，突显了该方向的重要研究价值。

Comments 43 pages

2605.08729 2026-05-12 cs.CV cs.GR cs.MM cs.SD 版本更新

Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation

Shihao Cheng, Jiaxu Zhang, Quanyue Song, Shansong Liu, Zhizhi Guo, Xiaolei Zhang, Chi Zhang, Xuelong Li, Zhigang Tu

AI总结 Unison 是一个统一的框架，旨在解决人类中心视频生成中动作、语音和声音之间异步特性带来的对齐难题。该方法通过语义引导的谐波策略，分离生成语音和音效组件，并利用双向音频交叉注意力和语义条件门控机制，提升声音清晰度并减少语音主导现象。此外，Unison 提出双向跨模态强制策略，通过解耦的去噪时间表实现动作与音频的同步，显著提升了生成视频在音频感知质量和跨模态同步方面的表现。

2605.08554 2026-05-12 cs.SD 版本更新

Online Segmented Beamforming via Dynamic Programming

Manan Mittal, Ryan M. Corey, Diego Cuji, John R. Buck, Andrew C. Singer

AI总结在动态声学环境中，由于干扰源和声源随时间变化，传统波束成形方法难以准确识别静止区域。本文提出了一种基于动态规划的在线分段波束成形算法，通过数据驱动的时间分段方法，动态调整协方差矩阵估计窗口，以适应局部平稳性，并在环境突变时实时重置协方差估计，从而有效跟踪新出现的干扰源。实验表明，该方法在复杂混响环境中优于固定窗口的自适应方法。

Comments 4 pages, 2 figures

2605.05611 2026-05-12 cs.SD cs.AI eess.AS 版本更新

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

Rixi Xu, Qingyu Liu, Haitao Li, Yushen Chen, Zhikang Niu, Yunting Yang, Jian Zhao, Ke Li, Berrak Sisman, Qinyuan Cheng, Xipeng Qiu, Kai Yu, Xie Chen

AI总结本文提出X-Voice，一个0.4B参数的多语言零样本语音克隆模型，使用户能够克隆任意人声并用30种语言说话。该模型基于420,000小时的多语言语料库训练，采用国际音标（IPA）作为统一表示，并设计了两阶段训练框架以无需复杂预处理即可实现零样本克隆。通过扩展F5-TTS架构，引入语言标识符双级注入和分类器自由引导的解耦调度机制，X-Voice在主观和客观评估中均优于现有系统，实现了与百亿参数模型相当的跨语言克隆能力。

Comments 16 pages, 4 figures, 9 tables

2603.09007 2026-05-12 cs.SD cs.AI 版本更新

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. Avila

AI总结本文研究了音频深度伪造检测中的性别公平性问题，分析了现有检测模型在不同性别上的性能差异。作者基于ASVspoof 5数据集，采用ResNet-18分类器，并结合四种音频特征进行评估，同时与基线模型AASIST进行对比。通过引入五种公平性指标，研究发现即使整体误识率差异较小，模型在性别上的错误分布仍存在显著差异，强调了传统性能指标的局限性，突出了公平性评估在构建更公正、可靠音频深度伪造检测系统中的重要性。

Comments Paper Accepted to IEEE CAI Conference 2026

2605.08224 2026-05-12 cs.IT cs.SD math.HO math.IT 版本更新

Uniqueness on a Continuum: Quantifying Tonal Ambiguity Using Information Theory

Michael Seltenreich

AI总结本文提出了一种基于信息论的连续度量方法，用于量化音调模糊性，扩展了传统的“唯一性”概念。该方法解决了原有唯一性概念无法区分具有唯一性的集合、无法捕捉有限转调模式中的层次结构以及无法考虑时间展开等问题。该度量适用于音高类集合和不同调音系统，拓展了音调关系的分析范围，并为音乐理论与分析提供了实用工具。

Comments 14 pages, 6 figures, 9 tables

2605.08214 2026-05-12 cs.SD cs.AI eess.AS 版本更新

Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization

Mohammed Aman Bhuiyan, Md Sazzad Hossain Adib, Samiul Basir Bhuiyan, Amit Chakraborty, Aritra Islam Saswato, Ahmed Faizul Haque Dhrubo, Mohammad Ashrafuzzaman Khan

AI总结本文针对孟加拉语长篇语音识别和说话人分段任务中的挑战，提出了基于Whisper和PyAnnote的改进方法。研究通过微调Whisper模型和PyAnnote分割模块，结合数据增强与定制数据集训练，显著提升了孟加拉语长时语音识别和说话人分段的性能。实验结果显示，所提出的系统在测试集上分别实现了0.2441的词错误率（WER）和0.2392的分段错误率（DER），优于原有预训练模型。

Comments 3 figures and 5 tables

2605.08194 2026-05-12 cs.SD eess.AS eess.SP 版本更新

ShipEcho -- An Interactive Tool for Global Mapping of Underwater Radiated Noise from Vessels

Mark Shipton, Valentino Denona, Đula Nađ, Roee Diamant

AI总结本文介绍了一款名为 ShipEcho 的交互式网络地理信息系统（GIS），用于全球范围内实时绘制船舶辐射噪声（V-URN）地图。该工具利用基于社区的自动识别系统（AIS）数据，并结合已建立的船舶声学模型和海底地形数据进行传播模拟，生成包括不同频段的声压级和声暴露级在内的噪声地图。研究展示了 ShipEcho 在支持环境评估、决策制定和政策制定方面的应用潜力，并通过与实际声学记录的对比验证了其地图的准确性。

Comments 34 pages