The Long Tail, Not the Front Page: Cold-Start Prediction of Crowd Highlight Salience
长尾而非首页:众包高亮显著性的冷启动预测
发表机构 * Glasp Inc.(Glasp公司)
AI总结 本文研究在无读者标记时,如何从文本预测文档的众包高亮显著性,提出基于句子嵌入和位置/上下文特征的对数排序模型,在平均精度上比位置基线提升0.044,并证明该优势源于真实读者标记的学习。
长尾而非首页:众包高亮显著性的冷启动预测
发表机构 * Glasp Inc.(Glasp公司)
AI总结 本文研究在无读者标记时,如何从文本预测文档的众包高亮显著性,提出基于句子嵌入和位置/上下文特征的对数排序模型,在平均精度上比位置基线提升0.044,并证明该优势源于真实读者标记的学习。
Bernstein-Schur核:通过草图调制和径向随机化的随机特征
发表机构 * Azetta AI
AI总结 提出一种随机特征构造方法,用于Bernstein-Schur核类,通过草图化有限调制和随机化完全单调径向因子,实现无偏估计和算子范数界,应用于yat核族。
人工智能在船舶金融中的应用:机遇与AI增强贷款发起的案例研究
发表机构 * ShipFinance.ai ; HHX.blue GmbH ; Technical University of Munich(慕尼黑技术大学) ; University of the Aegean(爱琴海大学)
AI总结 本文探讨AI在船舶金融中的应用,提出基于大语言模型的模块化架构,用于文档理解、信息提取和工作流自动化,以支持贷款申请流程。
LLM 能读频谱图:无编码器的语音语言建模
发表机构 * arXiv.org
AI总结 提出 Mel-LLM,一种无需专用语音编码器、直接将梅尔频谱图补丁通过线性投影输入 LLM 的架构,在 ASR 和 TTS 任务上验证了其可行性,ASR 性能与有编码器方案相当,TTS 初步可行。
何时对齐,何时预测:多模态学习的相图
发表机构 * Technion(以色列理工学院) ; Genentech(基因泰克公司) ; Brown University(布朗大学) ; Meta AI, FAIR
AI总结 提出统一线性框架,通过信噪比模型揭示跨模态对齐与预测的互补失效模式,构建四区域相图指导多模态学习目标选择,并在非线性实验中验证。
注意力扩展:利用注意力增强的上下文嵌入提升长文档关键短语提取
发表机构 * Institute for Research in Technology, ICAI School of Engineering, Comillas Pontifical University(技术研究所,ICAI工程学院,科米利亚斯宗座大学) ; DD-AIM, Senior Machine Learning Researcher(DD-AIM,高级机器学习研究员)
AI总结 提出注意力扩展机制,通过预训练词嵌入增强PLM的上下文表示,在不增加计算成本的情况下扩展有效上下文范围,显著提升长文档关键短语提取性能。
UniDexTok:基于真实数据的统一灵巧手分词器
发表机构 * Fudan University(复旦大学) ; Hefei University of Technology(合肥工业大学) ; Rimbot ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出统一灵巧手模型(UDHM)将人手和机器人手状态映射到共享22自由度语义接口,并基于此开发UniDexTok,一种免重定向的状态分词器,学习基于真实关节状态的离散token,实现异构灵巧手的统一表示,误差降低98%以上。
更接近真实:一种多尺度残差感知表示学习管道用于时间序列预测
发表机构 * RobotBulls Labs(RobotBulls实验室) ; North South University(南北大学)
AI总结 提出两阶段模型无关框架,通过显式解耦预测与残差学习,使用元校正器动态建模结构误差模式,提升Transformer预测精度。
学习记住什么:通过约束优化实现长时域语言代理的观测安全记忆保留
发表机构 * Huawei Noah's Ark Lab(华为诺亚方舟实验室) ; Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系)
AI总结 针对长时域语言代理的有限上下文窗口,提出OSL-MR框架,将记忆保留建模为约束随机优化问题,通过在线可观测特征与离线监督的严格分离学习查询条件化的证据价值,实验表明在严格预算下优于现有方法。
KCSAT-ML: 用全国队列人类难度探测推理模型
发表机构 * NAVER Cloud AI(NAVER云AI) ; KAIST AI(韩国科学技术院人工智能系)
AI总结 提出KCSAT-ML基准(含664道韩国高考数学题及339道带官方错误率的核心题)和难度对齐推理增益(DRG)指标,揭示视觉语言模型在人类高错误率题目上准确率崩溃、测试时缩放非单调以及同一模型族内反缩放与过度思考并存的现象。
MinhwaNet: 韩国民俗画中忠实但不足的对象定位
发表机构 * Korea Advanced Institute of Science and Technology (KAIST)(韩国科学技术院)
AI总结 提出MinhwaNet,通过部分级检测器生成对象证据图,发现韩国民俗画中符号列表不足以预测画作类型,而符号布局更重要,揭示了忠实但不足的解离现象。
模拟量子异步事件驱动图神经网络
发表机构 * King’s Communications, Learning and Information Processing (KCLIP) lab(国王通讯、学习与信息处理(KCLIP)实验室) ; Centre for Intelligent Information Processing Systems (CIIPS)(智能信息处理系统中心) ; Department of Engineering(工程系) ; Pasqal SAS(Pasqal SAS公司) ; Institute for Intelligent Networked Systems (INSI)(智能网络化系统研究所) ; Northeastern University London(伦敦东北大学)
AI总结 提出模拟量子异步事件驱动图神经网络(QA-AEGNN),利用中性原子量子处理器映射事件数据为原子阵列,通过Rydberg哈密顿量模拟消息传递,实现高效事件图计算。
CineDance: 迈向下一代多镜头长片电影级音视频生成
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; University of Electronic Science and Technology of China(电子科技大学) ; Zhejiang University(浙江大学) ; The University of Tokyo(东京大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出CineDance-1M大规模多镜头长片音视频数据集,通过三阶段筛选流程和CineBench评估体系,实现高质量联合生成。
RGB-S: 用于鲁棒灵巧操作的图像对齐触觉显著性
发表机构 * ShanghaiTech University(上海科技大学) ; Beijing Institute for General Artificial Intelligence(北京通用人工智能研究院)
AI总结 提出RGB-S框架,通过正向运动学和相机标定将触觉传感器位置投影到RGB图像平面,生成力调制高斯显著性图,显式对齐触觉与视觉,在严重遮挡下灵巧操作成功率提升26.7个百分点。
何时委托优于多数?一种基于委托的多样本LLM推理聚合器
发表机构 * MIT Media Lab(麻省理工学院媒体实验室)
AI总结 提出基于委托的聚合器PPV,利用样本的字母熵和推理几何信号,在MMLU-Pro上比多数投票高1.5个百分点,无需标签或训练。
LLM 在掷骰子时有多可靠?
发表机构 * Università degli Studi di Firenze(佛罗伦萨大学)
AI总结 通过离散概率问题基准测试,发现 LLM 在标准问题上准确率 0.96,但在反直觉问题上仅 0.59,且存在 token 偏差和误导提示的脆弱性。
AI代理如何重塑知识工作:自主性、效率与范围
发表机构 * Harvard Business School(哈佛商学院) ; Perplexity AI
AI总结 基于Perplexity产品数据,研究发现AI代理通过端到端任务执行,将自主工作时间从33秒提升至26分钟,完成时间缩短87%,成本降低94%,并扩展了工作范围与认知层次。
Skill-3D:面向智能体3D空间推理的场景感知技能进化
发表机构 * Zhejiang University(浙江大学) ; University of Technology Sydney(技术悉尼大学) ; OPPO Research Institute(OPPO研究院)
AI总结 提出Skill-3D框架,通过场景记忆和技能库的协同进化,使智能体根据场景自适应选择工具,显著提升3D空间推理中工具使用的正确性和充分性。
和弦符号时间序列适应能承载多远流派身份?多流派和弦符号建模的能力与边界
发表机构 * PearlLeeStudio
AI总结 本研究评估了五种轻量级适应方法(LoRA、IA3、BitFit、前缀微调和全微调)将预训练流行爵士和弦模型扩展到11个目标流派的效果,发现所有方法均能提升和弦预测性能,但和弦符号本身不足以完整传递流派身份。
HKVM-RAG:用于多跳RAG的键值分离超图证据组织
发表机构 * Faculty of Computing, Harbin Institute of Technology(哈尔滨工业大学计算机学院) ; School of Computer and Information Engineering, Henan University(河南大学计算机与信息工程学院)
AI总结 提出HKVM-RAG,一种键值分离的证据组织层,通过超图键值检索改进多跳RAG的证据链暴露,在三个基准上提升F1分数。
用于三维框架系统自动化结构分析的主体化大型语言模型
发表机构 * Department of Civil and Architectural Engineering, University of Miami(迈阿密大学土木与建筑工程系) ; School of Architecture, University of Miami(迈阿密大学建筑学院) ; HBC Engineering Company(HBC工程公司) ; Department of Electrical and Computer Engineering, University of Miami(迈阿密大学电气与计算机工程系)
AI总结 提出一种主体化LLM框架,通过投影表示和智能体流水线实现从自然语言输入到3D框架的自动化结构分析,平均准确率达90%。
一种双参数Weibull框架用于变压器权重分布诊断
发表机构 * Independent Researcher(独立研究者)
AI总结 本文提出了一种基于Weibull分布的双参数框架,用于分析Transformer中元素权重幅度分布,通过实验发现不同模块的k值分布特征,并揭示了训练过程中lambda参数的变化规律。
通过任务可交换性实现基于合成数据的有效推断
AI总结 提出任务可交换性条件,确保在科学研究中使用合成数据进行统计推断的有效性,并给出在民意调查和AI评估中的应用。
自适应轮流发言:面向实时多方语音代理
AI总结 提出ModeratorLM,一种基于角色条件的语音大模型,通过分块流式处理和链式推理,在多方对话中实现自适应轮流发言,显著提升轮流精度和召回率。
低延迟口语对话的端点预测
AI总结 提出端点预测方法,通过提前预测对话结束信号实现低延迟,在部分上下文中投机执行LLM和TTS流水线,平均延迟降低505毫秒。
用于分层分类的同时潜在预算树
AI总结 提出同时潜在预算树框架,通过模型驱动的分裂规则处理分层因素,实现可解释分类,并应用于肌萎缩侧索硬化症性别差异分析。
ProtoX-AD:自解释的时间序列异常检测与特征描述
AI总结 提出ProtoX-AD框架,通过原型学习实现自监督时间序列异常检测的可解释性,在保持检测性能的同时提供语义一致的异常特征解释。
双模式 Faust 到 CLAP 编译系统
AI总结 提出 faust2clap 框架,支持静态编译和动态解释两种模式,通过地址身份匹配算法和稳定槽位分配方案解决 DSP 参数身份保持问题,实现高效编译与热更新。
鲁棒的状态条件特征加权跳跃模型用于时间聚类
AI总结 提出一种鲁棒的特征加权跳跃模型,通过Tukey双权损失函数实现鲁棒性,并引入状态特定特征权重,在模拟和实证中优于竞争方法。
为真实场景语音增强生成训练目标:通过近远麦克风投影
AI总结 提出近远麦克风投影(C2D投影)方法,利用真实录音生成配对数据,通过参数化多通道维纳滤波器实现投影,训练神经网络在远场语音增强中优于现有GSS方法。