Don't Ask the LLM to Track Freshness: A Deterministic Recipe for Memory Conflict Resolution
不要询问LLM追踪新鲜度:一种确定性的内存冲突解决策略
发表机构 * IIT Kgp(印度理工学院科钦分校)
AI总结 针对基于LLM的内存系统中事实冲突解决性能低下的问题,提出用候选提取加Python max(serial)的确定性聚合替代LLM判断,在单跳任务上提升10.8个百分点,并扩展到多跳任务。
不要询问LLM追踪新鲜度:一种确定性的内存冲突解决策略
发表机构 * IIT Kgp(印度理工学院科钦分校)
AI总结 针对基于LLM的内存系统中事实冲突解决性能低下的问题,提出用候选提取加Python max(serial)的确定性聚合替代LLM判断,在单跳任务上提升10.8个百分点,并扩展到多跳任务。
DrugClaw与DrugAudit:基于原始来源的智能体与权威感知基准用于药物信息问答
发表机构 * Department of Health Outcomes and Biomedical Informatics, College of Medicine, University of Florida(佛罗里达大学健康结局与生物医学信息学系,医学院) ; PAMI Research Group, Department of Computer and Information Science, Faculty of Science and Technology, University of Macau(澳门大学科学与技术学院计算机与信息科学系PAMI研究组)
AI总结 提出多智能体检索增强系统DrugClaw,通过反射驱动状态机查询药物注册与药物警戒知识库,并构建含3772条权威感知基准DrugAudit,在多个基准上取得最优性能。
基于学习的组合空间有向图抽象用于混合组合非线性优化中的保序搜索
发表机构 * Department of Computer Science and Engineering(计算机科学与工程系) ; Department of Mechanical and Aerospace Engineering(机械与航空航天工程系)
AI总结 提出一种基于图神经网络的有向图抽象方法,将组合空间映射为有向图,以改进混合组合非线性规划问题的搜索效率。
利用潜在对称性进行目标定位、识别与感知
发表机构 * Mathematics Institute, University of Warwick(沃里克大学数学研究所) ; Eastern Institute for Advanced Study(东部高级研究 institute) ; Eastern Institute of Technology Ningbo, Zhejiang, China(宁波东部技术研究院,浙江,中国)
AI总结 本文利用设计有潜在对称性的散射体阵列作为传感器,通过分析对称性破缺程度,结合贝叶斯推断或人工神经网络实现入侵散射体的半径识别与位置定位。
DENSER:面向足球新视角合成的深度引导集成与分阶段EFA-GS重建
发表机构 * GameChanger by Dick’s Sporting Goods(Dick’s Sporting Goods 游戏变革)
AI总结 提出DENSER方法,通过深度引导集成和分阶段EFA-GS重建,结合相机高度损失加权、单目深度监督和三模型像素平均集成,提升足球场景新视角合成质量。
GovAI-Pipe:面向土耳其电子政务门户的公民交互AI分层治理管道
发表机构 * Turkey's e-Government Gateway(土耳其电子政务门户)
AI总结 针对土耳其电子政务平台缺乏结构化技术治理基础设施的问题,提出基于设计科学研究方法的四层AI治理管道GovAI-Pipe,将AI模型生命周期映射到治理检查点,并通过高风险用例验证其可审计的技术实现。
用于可靠的工具增强型大语言模型系统的自愈代理编排器
发表机构 * Independent Researcher(独立研究者) ; Senior Member, IEEE(IEEE高级成员)
AI总结 提出一种自愈代理编排器,通过将可靠性视为有界运行时控制问题,映射故障信号、选择恢复动作并验证轨迹,在100任务故障注入基准上达到98.8%任务成功率,优于重试和完全重规划基线。
Agent技能应超越文本:视觉技能的必要性
发表机构 * Peking University(北京大学) ; University of Wisconsin(威斯康星大学) ; MIT-IBM Watson AI Lab(麻省理工-IBM沃森人工智能实验室)
AI总结 针对现有技能学习方法仅存储文本经验导致视觉任务瓶颈的问题,提出多模态技能范式,结合文本逻辑与视觉支持,通过自动系统将经验转化为可复用的视觉技能,在GUI等视觉任务中显著优于纯文本技能。
GPTQ-intrinsic LoRA: 一种用于低秩自适应低精度量化的近最优算法
发表机构 * Department of Mathematics, University of California San Diego(数学系,加州大学圣地亚哥分校) ; Department of Mathematics and Halıcıoğlu Data Science Institute, University of California San Diego(数学系和Halıcıoğlu数据科学研究所,加州大学圣地亚哥分校)
AI总结 本文提出GPTQ-intrinsic LoRA算法,通过将低秩校正直接融入GPTQ量化过程,并利用信息论下界证明其近最优性,在语言和视觉模型上优于现有方法。
基于近似微分等价的神经网络压缩
发表机构 * IMT School for Advanced Studies Lucca(利古里亚高级研究学院) ; IIT CNR(理工学院-国家科研委员会)
AI总结 提出一种通过聚合功能相似神经元来压缩神经网络的方法,利用近似前向微分等价将网络编码为多项式ODE系统,实现模型大小与精度的平滑权衡。
一致且独特:基于相似图最大独立集提示选择的LLM基准测试效率
发表机构 * Computer Systems Department, Jožef Stefan Institute, Ljubljana, Slovenia(计算机系统部,乔塞夫·斯塔芬研究所,卢布尔雅那,斯洛文尼亚) ; Jožef Stefan International Postgraduate School, Ljubljana, Slovenia(乔塞夫·斯塔芬国际研究生学院,卢布尔雅那,斯洛文尼亚) ; Center for Astrophysics and Cosmology, University of Nova Gorica, Nova Gorica, Slovenia(天体物理与宇宙学中心,诺瓦戈里察大学,诺瓦戈里察,斯洛文尼亚)
AI总结 提出基于相似图最大独立集的提示选择框架,通过选择多样且非冗余的子集,在保持LLM排名一致性的同时显著减少基准测试成本。
用于跨模态水下机器人感知的声纳-视觉数据集
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; SINTEF(斯蒂纳夫) ; Norwegian University of Science and Technology(挪威科技大学)
AI总结 提出SOVIS数据集,包含76,000多对声纳-视觉帧,通过端到端管道同步和清洗数据,并利用交互式标注工具加速标注,在跨模态鱼类检测任务中实现mAP@0.10提升7倍。
基于HJB启发有限动作风险滤波的保持自动驾驶仪的残差Q学习用于固定翼无人机指令监督
发表机构 * PythaLab, Yildiz Technical University, Istanbul, Turkey(伊兹密尔技术大学吡塔实验室,伊斯坦布尔,土耳其) ; Turkish Aerospace (TUSAŞ), Ankara, Turkey(土耳其航空航天(TUSAŞ),安卡拉,土耳其)
AI总结 提出一种保持自动驾驶仪的残差指令监督框架,通过HJB方程启发的半离散值迭代评价器和控制Lyapunov/屏障函数启发的有限动作屏蔽,选择有限有界动作集中的残差,显著降低路径跟踪误差。
Dr. DocBench:专家级与困难文档解析的综合基准
发表机构 * Stanford University(斯坦福大学) ; MIT(麻省理工学院) ; Carnegie Mellon University(卡内基梅隆大学) ; University of Southern California(南加州大学) ; Harvard University(哈佛大学) ; IBM Research(IBM研究院) ; University of Arizona(亚利桑那大学) ; Duke University(杜克大学) ; UC Berkeley(加州大学伯克利分校) ; LMU Munich(慕尼黑路德维希-马克西米利安大学)
AI总结 提出Dr. DocBench基准,通过基于解析器失败的采样从多语言书籍语料库中选取挑战性文档,包含52个BISAC主题领域和65k高质量标注,用于评估专家级文档解析能力。
GuidaPA: 通过联邦学习为公共行政提供隐私保护的聊天机器人
发表机构 * University of Bologna(博洛尼亚大学)
AI总结 提出GuidaPA,一个基于联邦学习(FL)在意大利公共行政文档上训练的隐私保护聊天机器人,通过参数高效的联邦微调(QLoRA)和角色访问控制,在保持数据本地化的同时实现了接近集中式微调的答案质量。
无需训练的一步扩散模型图像反演
发表机构 * CVC, University of Alabama in Birmingham(CVC,阿拉巴马大学伯明翰分校) ; Machine Intelligence Institute, Masdar Institute of Science and Technology(机器智能研究所,马斯达尔科技 institute) ; Jilin University(吉林大学) ; City University of Hong Kong, Department of Geography(香港城市大学地理系)
AI总结 提出一种无需训练的反演框架TFinv,通过迭代噪声对齐和后缀学习解决一步扩散模型中真实图像反演与编辑的关键挑战,实现高效编辑。
从性能到生存力:自适应生物系统中潜在空间表示学习的自举框架
发表机构 * Laboratory of Bioengineering and Nanosciences (LBN)(生物工程与纳米科学实验室) ; University of Montpellier(蒙彼利埃大学) ; EuroMov Digital Health in Motion(EuroMov数字健康运动) ; IMT Mines Alès ; Certified Sophrologist, Sensorimotor Practice(认证Sophrologist,运动感知实践)
AI总结 针对自适应生物系统中性能相似但组织不同的问题,提出一个五级自举框架,通过逐步引入潜在组织、纵向生存力和内部预测近似,从观测不足中学习更具信息量的表示。
BRo-JEPA:在潜空间中学习模算术
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; NYU Langone Health(纽约大学Langone医疗中心)
AI总结 本文提出BRo-JEPA模型,通过在潜空间中施加模10算术的循环结构,实现零样本泛化,解决了标准模型无法外推未见操作的问题。
ActMVS:基于单目多视图立体的主动场景重建
发表机构 * Wangxuan Institute of Computer Technology, Peking University(北京大学王轩计算机技术研究所)
AI总结 提出ActMVS框架,通过视图因子图构建和全局深度优化,实现单目相机在线生成高质量、全局一致的密集深度图,支持机器人/UAV的主动场景重建与安全轨迹规划。
多智能体LLM系统中浪费计算资源的早期诊断:基于故障感知的可观测性
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出一种故障感知的可观测性框架,通过在线轨迹信号诊断多智能体LLM系统中的浪费计算,并在GAIA验证集上评估,揭示不同故障机制及其与资源消耗的关系。
所有模型都是错的,知道哪里有用:强化学习中的模型不确定性
发表机构 * German Federal Ministry of Research, Technology and Space (BMFTR)(德国联邦研究、技术和空间部) ; Robotics Institute Germany (RIG)(德国机器人研究所) ; Institute for Data Science in Mechanical Engineering, RWTH Aachen University(机械工程数据科学研究所,亚琛工业大学) ; NHR Center NHR4CES at RWTH Aachen University(亚琛工业大学NHR4CES中心)
AI总结 提出通过针对性处理概率模型的不确定性来减轻模型利用的框架,并展示在硬件直接学习和安全探索方面的成功。
天空中的钻石:云中的空想性动物
发表机构 * Reichman University, Israel(里奇曼大学,以色列)
AI总结 提出基于扩散模型的方法,预测人们可能在云中感知到的空想性动物,并通过生成相似形状的动物图像和变形视频辅助识别。
FlowTime: 基于流的个性化先验实现连续生成式观看时间预测
发表机构 * Fudan University(复旦大学) ; Shanghai University of Finance and Economics(上海财经大学) ; Kuaishou Technology(快手科技) ; Tongji University(同济大学)
AI总结 针对现有观看时间预测方法在范式上的局限性,提出连续生成式回归范式及FlowTime方法,利用一步生成变分自编码器和基于流的个性化先验,有效建模多模态用户-物品交互模式,显著提升预测性能。
识别你的编排器:面向LLM多智能体系统的熵动力学视角
发表机构 * Junze Zhu, Weihao Chen, Xuanwang Zhang, Zhen Wu, Xinyu Dai(朱俊泽、陈伟浩、张轩望、伍震、戴新宇)
AI总结 提出平均场熵动力学框架,通过逆工作流生成(IWG)合成高复杂度基准,揭示推理型模型作为编排器时因上下文压缩而失效的“推理陷阱”,为多智能体系统架构设计提供物理可解释参数。
FreqLite:一种轻量级频率分解线性模型,具有自适应可逆归一化,用于稳健的长期时间序列预测
发表机构 * arXiv.org
AI总结 提出FreqLite,一种超轻量级、通道独立的频率分解线性预测器,通过可学习的无损谱滤波器进行频带分解和线性预测,并引入自适应可逆实例归一化(A-RevIN)处理非平稳性,在长期预测基准上以更少参数和计算资源超越PatchTST等模型。
在生物制药制造中本地LLM的自然语言到SQL查询基准测试:消费级硬件上的实证基准
发表机构 * Department of Computer Science, University of the Cumberlands(大学的计算机科学系) ; Department of Computer Science, DePaul University(德保罗大学计算机科学系) ; Youngstown State University(亚当斯州立大学)
AI总结 本研究评估了四种本地部署的开源大语言模型在生物制药制造数据库上的自然语言到SQL生成性能,发现代码调优的通用模型优于领域特定模型,但当前性能仍需人工监督。
LongAttnComp:跨族上下文压缩用于长上下文推理
发表机构 * SambaNova Systems, Inc.(SambaNova系统公司)
AI总结 提出LongAttnComp方法,通过微调轻量级交叉注意力评分层并引入令牌级分块、令牌预算top-p算法、位置重排序和格式无关查询解析器,结合两阶段微调策略,在长上下文推理任务中实现与全上下文相当或更优的准确率。
HOLA: 面向开放集3D识别的全息多模态对齐
发表机构 * Technion – Israel Institute of Technology(技术ion-以色列理工学院)
AI总结 提出HOLA方法,通过解耦多正例对比损失和对齐点云与多视图图像及文本描述,实现开放集3D识别中的全息多模态对齐,在长尾基准上取得最先进零样本性能。
S2M-Trek: 从单球到多球运输:基于轮腿机器人的逐帧深度集方法
发表机构 * School of Mechanical Science and Engineering, Huazhong University of Science and Technology(华中科技大学机械科学与工程学院) ; School of Mathematics, Harbin Institute of Technology(哈尔滨工业大学数学学院)
AI总结 针对轮腿四足机器人背部同时运输多个自由滚动球体的动态操作问题,提出逐帧深度集(PFDS)编码器,通过逐帧置换不变池化解决历史拼接编码器的置换对称性不匹配,实现五球100%无掉落运输。
使用约束满足问题的不平衡解的条件化蛋白质自由能密度
发表机构 * CIMS, NYU(纽约大学应用数学与计算科学中心)
AI总结 本文通过将条件化非均匀Curie-Weiss自旋哈密顿量的对数配分函数(自由能)简化为不平衡$2 \to 1$范数计算,并设计多项式时间SDP算法,应用于泛素蛋白以探索自由能景观并识别柔性区域。