The Long Tail, Not the Front Page: Cold-Start Prediction of Crowd Highlight Salience
长尾而非首页:众包高亮显著性的冷启动预测
发表机构 * Glasp Inc.(Glasp公司)
AI总结 本文研究在无读者标记时,如何从文本预测文档的众包高亮显著性,提出基于句子嵌入和位置/上下文特征的对数排序模型,在平均精度上比位置基线提升0.044,并证明该优势源于真实读者标记的学习。
长尾而非首页:众包高亮显著性的冷启动预测
发表机构 * Glasp Inc.(Glasp公司)
AI总结 本文研究在无读者标记时,如何从文本预测文档的众包高亮显著性,提出基于句子嵌入和位置/上下文特征的对数排序模型,在平均精度上比位置基线提升0.044,并证明该优势源于真实读者标记的学习。
Bernstein-Schur核:通过草图调制和径向随机化的随机特征
发表机构 * Azetta AI
AI总结 提出一种随机特征构造方法,用于Bernstein-Schur核类,通过草图化有限调制和随机化完全单调径向因子,实现无偏估计和算子范数界,应用于yat核族。
人工智能在船舶金融中的应用:机遇与AI增强贷款发起的案例研究
发表机构 * ShipFinance.ai ; HHX.blue GmbH ; Technical University of Munich(慕尼黑技术大学) ; University of the Aegean(爱琴海大学)
AI总结 本文探讨AI在船舶金融中的应用,提出基于大语言模型的模块化架构,用于文档理解、信息提取和工作流自动化,以支持贷款申请流程。
LLM 能读频谱图:无编码器的语音语言建模
发表机构 * arXiv.org
AI总结 提出 Mel-LLM,一种无需专用语音编码器、直接将梅尔频谱图补丁通过线性投影输入 LLM 的架构,在 ASR 和 TTS 任务上验证了其可行性,ASR 性能与有编码器方案相当,TTS 初步可行。
何时对齐,何时预测:多模态学习的相图
发表机构 * Technion(以色列理工学院) ; Genentech(基因泰克公司) ; Brown University(布朗大学) ; Meta AI, FAIR
AI总结 提出统一线性框架,通过信噪比模型揭示跨模态对齐与预测的互补失效模式,构建四区域相图指导多模态学习目标选择,并在非线性实验中验证。
注意力扩展:利用注意力增强的上下文嵌入提升长文档关键短语提取
发表机构 * Institute for Research in Technology, ICAI School of Engineering, Comillas Pontifical University(技术研究所,ICAI工程学院,科米利亚斯宗座大学) ; DD-AIM, Senior Machine Learning Researcher(DD-AIM,高级机器学习研究员)
AI总结 提出注意力扩展机制,通过预训练词嵌入增强PLM的上下文表示,在不增加计算成本的情况下扩展有效上下文范围,显著提升长文档关键短语提取性能。
UniDexTok:基于真实数据的统一灵巧手分词器
发表机构 * Fudan University(复旦大学) ; Hefei University of Technology(合肥工业大学) ; Rimbot ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出统一灵巧手模型(UDHM)将人手和机器人手状态映射到共享22自由度语义接口,并基于此开发UniDexTok,一种免重定向的状态分词器,学习基于真实关节状态的离散token,实现异构灵巧手的统一表示,误差降低98%以上。
更接近真实:一种多尺度残差感知表示学习管道用于时间序列预测
发表机构 * RobotBulls Labs(RobotBulls实验室) ; North South University(南北大学)
AI总结 提出两阶段模型无关框架,通过显式解耦预测与残差学习,使用元校正器动态建模结构误差模式,提升Transformer预测精度。
学习记住什么:通过约束优化实现长时域语言代理的观测安全记忆保留
发表机构 * Huawei Noah's Ark Lab(华为诺亚方舟实验室) ; Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系)
AI总结 针对长时域语言代理的有限上下文窗口,提出OSL-MR框架,将记忆保留建模为约束随机优化问题,通过在线可观测特征与离线监督的严格分离学习查询条件化的证据价值,实验表明在严格预算下优于现有方法。
KCSAT-ML: 用全国队列人类难度探测推理模型
发表机构 * NAVER Cloud AI(NAVER云AI) ; KAIST AI(韩国科学技术院人工智能系)
AI总结 提出KCSAT-ML基准(含664道韩国高考数学题及339道带官方错误率的核心题)和难度对齐推理增益(DRG)指标,揭示视觉语言模型在人类高错误率题目上准确率崩溃、测试时缩放非单调以及同一模型族内反缩放与过度思考并存的现象。
MinhwaNet: 韩国民俗画中忠实但不足的对象定位
发表机构 * Korea Advanced Institute of Science and Technology (KAIST)(韩国科学技术院)
AI总结 提出MinhwaNet,通过部分级检测器生成对象证据图,发现韩国民俗画中符号列表不足以预测画作类型,而符号布局更重要,揭示了忠实但不足的解离现象。
模拟量子异步事件驱动图神经网络
发表机构 * King’s Communications, Learning and Information Processing (KCLIP) lab(国王通讯、学习与信息处理(KCLIP)实验室) ; Centre for Intelligent Information Processing Systems (CIIPS)(智能信息处理系统中心) ; Department of Engineering(工程系) ; Pasqal SAS(Pasqal SAS公司) ; Institute for Intelligent Networked Systems (INSI)(智能网络化系统研究所) ; Northeastern University London(伦敦东北大学)
AI总结 提出模拟量子异步事件驱动图神经网络(QA-AEGNN),利用中性原子量子处理器映射事件数据为原子阵列,通过Rydberg哈密顿量模拟消息传递,实现高效事件图计算。
CineDance: 迈向下一代多镜头长片电影级音视频生成
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; University of Electronic Science and Technology of China(电子科技大学) ; Zhejiang University(浙江大学) ; The University of Tokyo(东京大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出CineDance-1M大规模多镜头长片音视频数据集,通过三阶段筛选流程和CineBench评估体系,实现高质量联合生成。
RGB-S: 用于鲁棒灵巧操作的图像对齐触觉显著性
发表机构 * ShanghaiTech University(上海科技大学) ; Beijing Institute for General Artificial Intelligence(北京通用人工智能研究院)
AI总结 提出RGB-S框架,通过正向运动学和相机标定将触觉传感器位置投影到RGB图像平面,生成力调制高斯显著性图,显式对齐触觉与视觉,在严重遮挡下灵巧操作成功率提升26.7个百分点。
何时委托优于多数?一种基于委托的多样本LLM推理聚合器
发表机构 * MIT Media Lab(麻省理工学院媒体实验室)
AI总结 提出基于委托的聚合器PPV,利用样本的字母熵和推理几何信号,在MMLU-Pro上比多数投票高1.5个百分点,无需标签或训练。
LLM 在掷骰子时有多可靠?
发表机构 * Università degli Studi di Firenze(佛罗伦萨大学)
AI总结 通过离散概率问题基准测试,发现 LLM 在标准问题上准确率 0.96,但在反直觉问题上仅 0.59,且存在 token 偏差和误导提示的脆弱性。
AI代理如何重塑知识工作:自主性、效率与范围
发表机构 * Harvard Business School(哈佛商学院) ; Perplexity AI
AI总结 基于Perplexity产品数据,研究发现AI代理通过端到端任务执行,将自主工作时间从33秒提升至26分钟,完成时间缩短87%,成本降低94%,并扩展了工作范围与认知层次。
Skill-3D:面向智能体3D空间推理的场景感知技能进化
发表机构 * Zhejiang University(浙江大学) ; University of Technology Sydney(技术悉尼大学) ; OPPO Research Institute(OPPO研究院)
AI总结 提出Skill-3D框架,通过场景记忆和技能库的协同进化,使智能体根据场景自适应选择工具,显著提升3D空间推理中工具使用的正确性和充分性。
和弦符号时间序列适应能承载多远流派身份?多流派和弦符号建模的能力与边界
发表机构 * PearlLeeStudio
AI总结 本研究评估了五种轻量级适应方法(LoRA、IA3、BitFit、前缀微调和全微调)将预训练流行爵士和弦模型扩展到11个目标流派的效果,发现所有方法均能提升和弦预测性能,但和弦符号本身不足以完整传递流派身份。
HKVM-RAG:用于多跳RAG的键值分离超图证据组织
发表机构 * Faculty of Computing, Harbin Institute of Technology(哈尔滨工业大学计算机学院) ; School of Computer and Information Engineering, Henan University(河南大学计算机与信息工程学院)
AI总结 提出HKVM-RAG,一种键值分离的证据组织层,通过超图键值检索改进多跳RAG的证据链暴露,在三个基准上提升F1分数。
用于三维框架系统自动化结构分析的主体化大型语言模型
发表机构 * Department of Civil and Architectural Engineering, University of Miami(迈阿密大学土木与建筑工程系) ; School of Architecture, University of Miami(迈阿密大学建筑学院) ; HBC Engineering Company(HBC工程公司) ; Department of Electrical and Computer Engineering, University of Miami(迈阿密大学电气与计算机工程系)
AI总结 提出一种主体化LLM框架,通过投影表示和智能体流水线实现从自然语言输入到3D框架的自动化结构分析,平均准确率达90%。
一种双参数Weibull框架用于变压器权重分布诊断
发表机构 * Independent Researcher(独立研究者)
AI总结 本文提出了一种基于Weibull分布的双参数框架,用于分析Transformer中元素权重幅度分布,通过实验发现不同模块的k值分布特征,并揭示了训练过程中lambda参数的变化规律。
RoboNaldo:通过运动引导课程强化学习实现精准、稳定且强力的人形足球射门
发表机构 * The University of Hong Kong(香港大学) ; The Chinese University of Hong Kong(香港中文大学) ; Archon Robotics
AI总结 提出三阶段运动引导课程强化学习框架RoboNaldo,从单一人踢参考逐步优化射门性能,在仿真中射门误差降低48.6%、速度提升2.96倍,真实机器人上3米外平均射门误差0.73-0.86米,触球后球速达13.10米/秒。
Workflow-GYM:面向真实世界专业领域的长周期计算机使用代理任务评估
发表机构 * ByteDance Seed(字节跳动Seed) ; M-A-P ; Humanlaya
AI总结 提出Workflow-GYM基准,评估AI代理在专业软件中执行长周期、高价值工作流的能力,发现最强模型成功率仅略超30%,揭示当前代理在长周期工作流一致性方面的严重不足。
用于LLM辅助临床手稿准备的确定性完整性门控:一种可审计的生物医学信息学架构
发表机构 * University of Ulsan College of Medicine(蔚山大学医学院) ; Asan Medical Center(峨山医疗中心) ; Aperivue ; AMIST, Asan Medical Center(AMIST,峨山医疗中心)
AI总结 提出一种确定性完整性门控架构,通过将工作流分解为可独立验证的技能并在每个阶段设置确定性检查,解决了LLM生成临床手稿中的虚假引用、数据漂移和报告指南缺失问题。
位置、类型、原因与重要性:面向文本到图像反馈的结构化缺陷定位
发表机构 * Tsinghua University(清华大学) ; Kolors Team, Kuaishou Technology(快手科技Kolors团队) ; University of British Columbia(不列颠哥伦比亚大学) ; Vector Institute(向量研究所) ; South China Normal University(华南师范大学)
AI总结 提出结构化缺陷定位(SDG)方法,将文本到图像生成中的缺陷诊断建模为结构化集合预测,通过构建SDG-30K数据集和SDG-Eval评估协议,并利用视觉语言模型作为检测器,结合BoxFlow-GRPO将预测的缺陷集合转化为空间奖励以改进扩散模型对齐。
GenAutoML: 面向时间序列分析的动态架构生成与优化的智能体框架
发表机构 * Paul Wurth S.A.(保罗·沃思公司) ; Otto-von-Guericke University(奥托·冯·格里克大学) ; Technical University of Munich(慕尼黑技术大学)
AI总结 提出GenAutoML框架,利用大语言模型作为神经架构师,通过沙盒反射循环和签名感知运行时自动生成并优化时间序列预测与异常检测的神经网络架构,引入动态可逆实例归一化提升非平稳条件下的鲁棒性。
具有时变干预的流行病时间序列中的反事实预测基准测试
发表机构 * University of Michigan Computer Science and Engineering(密歇根大学计算机科学与工程系) ; University of Michigan Epidemiology & Complex Systems(密歇根大学流行病学与复杂系统)
AI总结 为解决缺乏可观测反事实结果的真实基准问题,基于校准的基于智能体的模型生成大规模流行病时间序列反事实预测基准,支持静态/时变治疗和单/多策略干预,评估多种因果推断方法。
Agents' Last Exam
发表机构 * arXiv
AI总结 针对AI系统在专业领域缺乏经济性部署的问题,提出Agents' Last Exam (ALE)基准,通过250+专家协作构建覆盖13个行业集群55个子领域的1000+长期真实经济任务,当前最难层级平均通过率仅2.6%。
主动推理是一种什么类型的推理?
发表机构 * Department of Electrical Engineering(电气工程系) ; Eindhoven University of Technology(埃因霍温理工大学) ; Eindhoven, the Netherlands(荷兰埃因霍温) ; Lazy Dynamics ; Utrecht, the Netherlands(荷兰乌得勒支)
AI总结 本文通过变分自由能框架将主动推理中的期望自由能最小化分解为熵校正项和规划校正项,揭示了其推理本质,并在网格世界实验中验证了不同校正项的作用。