LLM can Read Spectrogram: Encoder-free Speech-Language Modeling
LLM 能读频谱图:无编码器的语音语言建模
发表机构 * arXiv.org
AI总结 提出 Mel-LLM,一种无需专用语音编码器、直接将梅尔频谱图补丁通过线性投影输入 LLM 的架构,在 ASR 和 TTS 任务上验证了其可行性,ASR 性能与有编码器方案相当,TTS 初步可行。
LLM 能读频谱图:无编码器的语音语言建模
发表机构 * arXiv.org
AI总结 提出 Mel-LLM,一种无需专用语音编码器、直接将梅尔频谱图补丁通过线性投影输入 LLM 的架构,在 ASR 和 TTS 任务上验证了其可行性,ASR 性能与有编码器方案相当,TTS 初步可行。
MinhwaNet: 韩国民俗画中忠实但不足的对象定位
发表机构 * Korea Advanced Institute of Science and Technology (KAIST)(韩国科学技术院)
AI总结 提出MinhwaNet,通过部分级检测器生成对象证据图,发现韩国民俗画中符号列表不足以预测画作类型,而符号布局更重要,揭示了忠实但不足的解离现象。
模拟量子异步事件驱动图神经网络
发表机构 * King’s Communications, Learning and Information Processing (KCLIP) lab(国王通讯、学习与信息处理(KCLIP)实验室) ; Centre for Intelligent Information Processing Systems (CIIPS)(智能信息处理系统中心) ; Department of Engineering(工程系) ; Pasqal SAS(Pasqal SAS公司) ; Institute for Intelligent Networked Systems (INSI)(智能网络化系统研究所) ; Northeastern University London(伦敦东北大学)
AI总结 提出模拟量子异步事件驱动图神经网络(QA-AEGNN),利用中性原子量子处理器映射事件数据为原子阵列,通过Rydberg哈密顿量模拟消息传递,实现高效事件图计算。
HKVM-RAG:用于多跳RAG的键值分离超图证据组织
发表机构 * Faculty of Computing, Harbin Institute of Technology(哈尔滨工业大学计算机学院) ; School of Computer and Information Engineering, Henan University(河南大学计算机与信息工程学院)
AI总结 提出HKVM-RAG,一种键值分离的证据组织层,通过超图键值检索改进多跳RAG的证据链暴露,在三个基准上提升F1分数。
用于三维框架系统自动化结构分析的主体化大型语言模型
发表机构 * Department of Civil and Architectural Engineering, University of Miami(迈阿密大学土木与建筑工程系) ; School of Architecture, University of Miami(迈阿密大学建筑学院) ; HBC Engineering Company(HBC工程公司) ; Department of Electrical and Computer Engineering, University of Miami(迈阿密大学电气与计算机工程系)
AI总结 提出一种主体化LLM框架,通过投影表示和智能体流水线实现从自然语言输入到3D框架的自动化结构分析,平均准确率达90%。
深度双样本检验的反事实解释
发表机构 * Hasso-Plattner-Institute, University of Potsdam(波茨坦大学洪堡-劳恩堡研究所) ; Hasso Plattner Institute for Digital Health at Mount Sinai Icahn School of Medicine at Mount Sinai(辛辛那提医学院洪堡数字健康研究所)
AI总结 针对深度双样本检验,提出基于扩散自编码器和MMD优化的反事实解释框架,生成样本级编辑以揭示驱动假设拒绝的特征。
一次凌星足矣:通过EXOVEIL学习恒星行为检测系外行星
发表机构 * SRH Hochschule(SRH 高校)
AI总结 提出EXOVEIL系统,利用Transformer世界模型和自监督学习从原始光变曲线中检测单次凌星事件,在Kepler数据上实现高召回率,并零样本迁移至TESS和PLATO任务。
MPMWorlds: 用于推断和外推物理动力学的物质点法模拟
发表机构 * Cornell University(康奈尔大学)
AI总结 通过构建2D物质点法(MPM)模拟数据集,研究从视频推断物理动力学并外推时间演化的能力,比较代码生成与视频扩散方法的优劣。
基于深度学习的代数雷诺应力闭合模型用于湍流RANS模拟
发表机构 * Mathematical Institute, University of Oxford(牛津大学数学研究所) ; Aerospace and Mechanical Engineering, University of Notre Dame(诺特丹大学航空航天与机械工程系)
AI总结 提出一种物理驱动的深度学习闭合模型DARSM,通过神经网络映射流动不变量到隐式代数雷诺应力方程中的经验参数,并结合伴随方程实现端到端优化,在方形管道和周期性山丘基准测试中平均速度误差降低2-4倍。
VISTA:面向视觉规格到网页应用编码智能体的端到端基准
发表机构 * University of Arizona(亚利桑那大学) ; Zoom ; Stony Brook University(石溪大学)
AI总结 提出VISTA基准,通过多维度输入条件和评估指标,衡量基于LLM的智能体从视觉规格生成功能完整、视觉一致的网页应用的能力。
HD-Prot:一种使用连续结构令牌进行联合序列-结构建模的蛋白质语言模型
发表机构 * The Hong Kong Polytechnic University(香港理工大学) ; Mohamed bin Zayed University of Artificial Intelligence(马尔代夫人工智能大学)
AI总结 提出HD-Prot,一种混合扩散蛋白质语言模型,通过连续结构令牌将序列pLM扩展为多模态,实现联合序列-结构建模,在多种任务上取得竞争性能。
在行为驱动软件测试套件中挖掘子场景重构机会:ML分类器和LLM-判断基线
发表机构 * Independent Researcher(独立研究者;应用MBA(数据分析),德克萨斯韦斯利安大学) ; Applied MBA (Data Analytics), Texas Wesleyan University(独立研究者;计算机工程学士,国立科学与技术大学(NUST)) ; Independent Researcher(独立研究者;管理硕士,慕尼黑技术大学) ; B.E. Computer Engineering, National University of Sciences and Technology (NUST) ; Independent Researcher ; M.Sc. Management, Technical University of Munich
AI总结 本文通过ML分类器和LLM基线,识别行为驱动开发测试套件中可提取的子场景,量化其在公共BDD生态系统中的普及率。
地球科学基础模型:从感知到推理与发现
发表机构 * Department of Data Science and Artificial Intelligence, The Hong Kong Polytechnic University(数据科学与人工智能系,香港理工大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 本文综述了地球科学基础模型,探讨了其从感知到多模态推理及科学发现的能力演进,并总结了其在大气、水圈、岩石圈等领域的广泛应用。
版本化延迟物化:面向大规模推荐系统的超长序列训练
发表机构 * Meta Platforms, Inc.(Meta平台)
AI总结 提出版本化延迟物化范式,通过归一化存储和即时序列重建消除数据冗余,支持超长用户交互历史训练,降低存储I/O开销并提升模型质量。
LLM智能体中长期记忆安全综述:跨记忆生命周期的攻击、防御与治理
发表机构 * MemTensor ; Shanghai Jiao Tong University(上海交通大学)
AI总结 本文提出记忆生命周期框架,系统分析LLM智能体长期记忆面临的新威胁,并引入可验证记忆治理(VMG)架构原语,强调存储时溯源与版本控制对安全的关键作用。
DCD:面向领域的受控检索增强生成设计
发表机构 * red_mad_robot
AI总结 提出DCD(领域-集合-文档)层次化设计,通过结构化知识表示和多阶段路由控制检索与生成范围,无需修改语言模型,提升RAG在异构语料和多步查询中的鲁棒性和准确性。
随机梯度下降分位数估计量的中心极限定理
发表机构 * Department of Statistics, University of Chicago(芝加哥大学统计系) ; Department of Statistics and Data Science, Washington University in St. Louis(圣路易斯华盛顿大学统计与数据科学系)
AI总结 本文针对常学习率SGD分位数估计,利用马尔可夫链理论证明其平稳分布随学习率趋于零时收敛到高斯分布,首次给出CLT型理论保证,并提出置信区间递归算法。
ResidualPlanner+:一种用于边际查询及更广泛查询的可扩展矩阵机制
发表机构 * The Pennsylvania State University(宾夕法尼亚州立大学) ; Binghamton University(宾厄姆顿大学) ; Duke University(杜克大学) ; TikTok Inc.(抖音公司)
AI总结 提出两种可扩展的矩阵机制ResidualPlanner和ResidualPlanner+,分别优化边际查询的精度和支持更复杂的工作负载(如范围查询),在速度和内存上显著超越现有方法。
HalluJudge: 代码审查自动化中上下文错位的无参考幻觉检测
发表机构 * Monash University Australia(墨尔本大学澳大利亚) ; The University of Melbourne Australia(墨尔本大学澳大利亚) ; Atlassian USA(Atlassian美国)
AI总结 提出无参考幻觉检测方法HalluJudge,通过上下文对齐评估生成评论的根基性,采用多分支推理策略,在F1=0.85且成本$0.009下与开发者偏好67%一致。
黎曼流形上的镜像下降
发表机构 * School of Mathematical Sciences, Fudan University, Shanghai 200433, China(复旦大学数学学院,上海200433,中国) ; Shanghai Key Laboratory for Contemporary Applied Mathematics, Fudan University, Shanghai 200433, China(上海当代应用数学重点实验室,复旦大学,上海200433,中国)
AI总结 将镜像下降推广到黎曼流形,通过重参数化提出黎曼镜像下降(RMD)及其随机变体,并建立非渐近收敛保证,在Stiefel流形上退化为曲线梯度下降(CGD)。
统一潜在空间解缠的VAE框架及鲁棒的解缠效果评估
发表机构 * Department of Applied and Computational Mathematics and Statistics(应用与计算数学与统计系) ; Lucy Family Institute for Data & Society(数据与社会学院)
AI总结 提出统一框架bfVAE整合多种解缠VAE方法,并开发FVH-LT和DBSR-LS评估解缠效果,引入LSSI指标量化潜在结构分离,无需真实生成因子。
HiGR:腾讯工业级层次化生成式推荐框架
发表机构 * Platform and Content Group, Tencent(腾讯平台与内容组) ; Sun Yat-sen University(中山大学)
AI总结 提出HiGR框架,通过结构化语义ID和层次化解码器解决生成式推荐在工业规模下的规划效率与列表质量对齐问题,离线质量提升超10%,推理加速5倍。
多轮交互中的安全隐患:工具使用智能体的多轮安全风险基准与防御
发表机构 * Stanford University(斯坦福大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出多轮工具使用安全基准MT-AgentRisk,发现多轮设置下攻击成功率平均增加16%,并设计无训练、与工具无关的自探索防御方法ToolShield,平均降低30%攻击成功率。
Fin-RATE:面向SEC文件的金融分析与追踪评估基准
发表机构 * Tongji University(同济大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; Yale University(耶鲁大学) ; Goldman Sachs(高盛集团)
AI总结 针对LLM在金融领域分析复杂监管文件的需求,提出基于SEC文件的Fin-RATE基准,通过三种任务路径评估模型,发现跨文档和跨时间分析时性能显著下降。
TokaMark:MAST托卡马克等离子体模型的综合基准
发表机构 * IBM Research Europe(IBM欧洲研究院) ; UK Atomic Energy Authority(英国原子能局) ; STFC Hartree Centre(STFC哈特ree中心)
AI总结 为解决聚变数据稀缺、分散且标注不一致的问题,提出TokaMark基准,包含14项任务,统一多模态聚变数据访问和评估协议,并提供基线模型,以加速数据驱动的AI等离子体建模。
LingxiDiagBench: 用于基准测试大语言模型在中文精神科咨询与诊断中的多智能体框架
发表机构 * Tianqiao and Chrissy Chen Institute(天桥和克里斯西·陈研究所) ; EverMind AI Inc.(EverMind AI公司) ; Shanghai Mental Health Center, Shanghai Jiao Tong University School of Medicine(上海精神卫生中心,上海交通大学医学院)
AI总结 提出LingxiDiagBench多智能体框架,包含16K电子病历对齐的合成咨询对话数据集,评估LLM在静态诊断和动态咨询中的表现,发现其对抑郁-焦虑共病识别和12类鉴别诊断准确率低,动态咨询常不如静态评估。
关于自动化日志解析的序列到序列模型
发表机构 * Toronto University(多伦多大学)
AI总结 本研究系统评估了四种序列建模架构(Transformer、Mamba、单/双向LSTM)在自动化日志解析中的性能,发现Transformer表现最佳,Mamba在计算成本较低时具有竞争力,并分析了表示选择、序列长度和数据效率的影响。
针对机器人系统神经网络控制器的木马攻击
发表机构 * Concordia University(康科德大学) ; Concordia Institute for Information Systems Engineering(康科德信息系统工程研究所) ; Fonds de recherche du Québec – Nature et Technologies(魁北克自然与技术研究基金) ; National Cybersecurity Consortium(国家网络安全联盟)
AI总结 针对机器人神经网络控制器,设计轻量级并行木马网络,在特定触发条件下篡改控制指令,通过仿真验证攻击有效性。
绿色联邦学习的标准化方法与建议
发表机构 * Children’s National Hospital(儿童医院) ; NVIDIA(英伟达) ; Children’s National Hospital George Washington University(儿童医院乔治华盛顿大学)
AI总结 提出基于NVFlare和CodeCarbon的联邦学习碳核算方法,通过实验验证系统慢速和协调效应可显著增加碳排放,强调标准化碳核算对可复现绿色FL评估的必要性。
通过序贯蒙特卡洛实现高效随机优化
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 针对梯度难以计算的优化问题,提出用序贯蒙特卡洛(SMC)采样器替代昂贵的内采样循环,实现高效随机优化,并在能量模型奖励调优中验证有效性。