Harnessing Generalist Agents for Contextualized Time Series
利用通用智能体进行情境化时间序列分析
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出TimeClaw框架,通过集成可执行时间工具、经验驱动能力进化和情景多模态记忆,使通用大语言模型智能体具备情境化时间推理能力,在能源、金融等多领域基准上取得性能提升。
利用通用智能体进行情境化时间序列分析
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出TimeClaw框架,通过集成可执行时间工具、经验驱动能力进化和情景多模态记忆,使通用大语言模型智能体具备情境化时间推理能力,在能源、金融等多领域基准上取得性能提升。
信任,但不验证:LLM 源评估中的认知盲点
发表机构 * Amazon(亚马逊)
AI总结 研究语言模型在多源综合中是否评估证据质量,发现模型虽能检测伪造统计但未在综合中启用,而是依赖方法论-语域门控,导致数值有效性被抑制。
ReasoningFlow: 理解LLM推理轨迹的话语结构
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出ReasoningFlow框架,将大推理模型的推理轨迹建模为细粒度有向无环图,通过人工和自动标注分析发现模型间结构相似性、多样化推理行为及错误步骤与最终答案的关系。
LeanMarathon:通过长视界Lean自动形式化实现可靠的AI合作数学家
发表机构 * Department of Statistics, University of Warwick, UK(英国沃里克大学统计系) ; Center for Advanced Intelligence Project, RIKEN, Japan(日本理化学研究所高级智能项目) ; Department of Statistics, University of Michigan, USA(美国密歇根大学统计系) ; Department of Mathematical Informatics, The University of Tokyo(东京大学数学信息学系;日本理化学研究所高级智能项目) ; also Center for Advanced Intelligence Project, RIKEN, Japan(加州大学伯克利分校电气工程与计算机科学系;统计系) ; Department of Electrical Engineering and Computer Sciences, also Department of Statistics, University of California, Berkeley, USA(上海交通大学数学科学学院,自然科学院和MOE-LSC) ; School of Mathematical Sciences, Institute of Natural Sciences and MOE-LSC, Shanghai Jiao Tong University, China
AI总结 提出多智能体框架LeanMarathon,通过蓝图抽象和两阶段编排器实现长视界研究数学的可靠自动形式化,在四个Erdős问题上成功形式化七个定理。
用于过程奖励模型的可控且可验证的过程数据合成
发表机构 * Jilin University(吉林大学)
AI总结 提出一个可控且可验证的框架,通过注入模板感知错误并重新计算后续步骤来合成过程监督数据,以提升过程奖励模型在逻辑和数学推理中的性能。
我们真的需要立即重置吗?重新思考高效机器人导航的碰撞处理
发表机构 * College of Information Science and Technology, Eastern Institute of Technology(信息科学与技术学院,东部技术学院) ; Department of Aeronautical and Aviation Engineering, The Hong Kong Polytechnic University(航空与航空工程系,香港理工大学) ; Department of Computing, The Hong Kong Polytechnic University(计算系,香港理工大学) ; School of Computer Science and Technology, University of Science and Technology of China(计算机科学与技术学院,中国科学技术大学) ; Department of Mechanical Engineering, The Hong Kong Polytechnic University(机械工程系,香港理工大学)
AI总结 针对机器人导航中每次碰撞立即重置环境的惯例,提出多碰撞重置预算(MCB)框架,通过将局部碰撞终止与全局环境重置解耦,允许智能体在同一回合内重试困难配置,从而提高早期学习效率。
语言模型引导的圆柱表示假说
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出圆柱表示假说(CRH),通过放宽线性表示假说(LRH)的正交性假设,解释语言模型引导中的不稳定性和不确定性。
VASO:物理AI智能体的形式可验证自进化技能
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Iowa State University(爱荷华州立大学)
AI总结 提出VASO框架,通过形式验证引导LLM生成的机器人技能合约自进化,将模型检查的反例转化为文本梯度更新技能合约,无需微调模型权重,在Jackal和四旋翼任务中达到97.2%的形式规范符合率。
面向科学数据高保真有损压缩的残差建模
发表机构 * arXiv.org ; cs.AI(计算机科学与人工智能)
AI总结 针对高保真度下学习压缩残差占据主导速率的问题,提出两种残差编码器LBRC和NGLR,通过定制残差表示提升压缩比。
稳定性与可操纵性:评估LLM裁判在决策后交互下的鲁棒性
发表机构 * WAI USA Research Labs(WAI美国研究实验室)
AI总结 研究LLM作为裁判在决策后交互中的可操纵性,发现虽然重复中性评估下高度稳定,但针对性挑战可显著逆转判决,并提出评估鲁棒性分数(ERS)量化交互鲁棒性。
合成对比推理用于多表问答
发表机构 * Iowa State University(爱荷华州立大学) ; Thoughtworks
AI总结 针对多表问答缺乏推理监督的问题,提出通过异构LLM生成合成对比推理轨迹,并利用对比偏好优化微调模型,在MMQA上提升9.7%-16.3%。
广义TV--$\ell_p$结构化先验用于贝叶斯$T_1$映射
发表机构 * Department of Computing Science, Umeå University, Sweden(乌尔姆大学计算机科学系,瑞典)
AI总结 提出一种结合总变分(TV)与$\ell_p$范数的结构化空间先验族,并嵌入贝叶斯回归框架,利用No-U-Turn采样器进行后验推断,实现$T_1$映射中的不确定性量化,实验表明该方法能提高空间一致性和估计可靠性。
模式选择性并非任务因果结构:1B类语言模型中组合任务电路的跨架构机制研究
发表机构 * B-Class Language Models(1B类语言模型) ; Cross-Architecture Mechanistic Study(跨架构机理研究)
AI总结 通过统一协议测试三个1B类语言模型在四个组合任务上的注意力头电路,发现不同模型对同一任务使用不同的注意力模式,并引入五类筛选结果分类法,提出MoE模型基于前一个token位置基板构建组合任务电路的可证伪假设。
SHALA-LLM:在对齐LLM中智能处理模糊标签
发表机构 * MIT Media Lab, Massachusetts Institute of Technology(麻省理工学院媒体实验室、麻省理工学院) ; National University of Singapore(新加坡国立大学)
AI总结 提出SHALA-LLM强化学习框架,通过从标注者分布中学习并动态优先处理高模糊样本,改善LLM对模糊标签的建模,在NLI和情感识别任务中提升与标注者分布的一致性及分类性能。
证据引导的神经架构选择在不确定性下用于个体化血糖预测
发表机构 * arXiv.org ; cs.LG(计算机学习)
AI总结 提出EVIDENT框架,结合贝叶斯训练、证据排序和任务特定验证,在有限、噪声和异构数据中自动选择最优神经架构,用于个体化血糖预测。
李群中导航向量场距离函数的高效计算
发表机构 * University of São Paulo(圣保罗大学)
AI总结 针对李群中基于向量场的路径跟踪问题,提出一种利用G-多项式曲线结构将距离计算简化为多项式求根的高效方法,显著降低计算时间并保持精度。
Mamba辅助的非马尔可夫闭合用于降阶建模
发表机构 * Pacific Northwest National Laboratory(太平洋西北国家实验室) ; University of Washington(华盛顿大学) ; Brown University(布朗大学)
AI总结 针对高维动力系统降阶建模中的非马尔可夫闭合项问题,提出Mamba辅助闭合框架,利用Mamba序列模型从已解析轨迹预测闭合项,并通过数值积分器耦合降阶方程,在粘性Burgers方程和混沌双尺度Lorenz '96系统上优于马尔可夫模型、GRU序列模型和Wilks方法。
Biomazon:亚马逊盆地三维森林结构与生物量建模的多模态数据集
发表机构 * Jülich Supercomputing Centre (JSC), Forschungszentrum Jülich(julich超级计算中心(JSC),julich研究所) ; School of Engineering and Natural Sciences (SENS), University of Iceland(工程与自然科学学院(SENS),冰岛大学) ; Global Land Monitoring Group, GFZ Helmholtz Centre for Geosciences(全球土地监测组,geofz赫尔姆霍兹研究中心)
AI总结 针对现有方法未将森林垂直结构作为有序轮廓学习的问题,提出Biomazon多模态基准数据集,结合GEDI RH和AGBD目标与多传感器预测因子,通过共享编码器-解码器框架进行消融研究,为热带森林结构一致RH轮廓预测和结构-生物量建模建立参考基准。
基于任务向量算术的语言模型文本到语音情感表达控制
发表机构 * Instituto de Biociências, Letras e Ciências Exatas Universidade Estadual Paulista "Júlio de Mesquita Filho" (UNESP)(生物科学、文学和精确科学学院 帕尔马斯州立大学 "Júlio de Mesquita Filho" (UNESP))
AI总结 本文通过系统消融实验定位情感韵律的主要载体为x-vector,并提出一种基于x-vector质心算术的无训练方法,实现跨说话人情感强度控制,在保留身份和可懂度的同时提升情感相似度。
从单目视频中恢复物理上可信的人-物交互
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出RePHO方法,通过物理引导的重建框架和强化学习策略,从单目视频中恢复物理上可信的人-物交互,解决了现有方法中的穿透和物体漂浮问题。
LightVesselNet:用于视网膜血管分割的超轻量级亚10万参数网络
发表机构 * Department of Electrical & Electronic Engineering, Bangladesh University of Engineering and Technology (BUET)(电子与电气工程系,孟加拉国工程与技术大学)
AI总结 提出LightVesselNet,一种仅75K参数的紧凑编码器-解码器网络,结合通道与空间注意力、多尺度特征聚合和亚像素上采样,在五个公开数据集上实现与大型模型相当的视网膜血管分割性能,适用于资源受限的临床环境。
TopoPult-SSL: 通过自蒸馏弱临床先验实现无腺体掩膜的跨设备睑板腺分割
发表机构 * OdaxAI S.R.L.(OdaxAI公司) ; Topcon Group — VISIA Imaging S.R.L.(Topcon集团——VISIA成像公司)
AI总结 提出TopoPult-SSL两阶段框架,利用眼睑掩膜和临床元数据作为弱先验,通过自蒸馏实现跨设备睑板腺分割,无需目标腺体掩膜即可达到高精度。
语言模型隐藏状态中的轨迹动力学预测超越惊讶度的人类处理成本
发表机构 * Machine Perception & Cognitive Robotics Laboratory(机器感知与认知机器人实验室) ; Department of Psychology(心理学系) ; Center for Complex Systems(复杂系统中心) ; Florida Atlantic University(佛罗里达 Atlantic 大学)
AI总结 通过线性外推语言模型隐藏状态轨迹的偏差,提出轨迹外推误差作为独立于惊讶度的人类处理成本预测因子,并在自然故事语料库中验证其对自定步速阅读时间的预测能力。
PJ-RoPE:一种用于相对注意力的傅里叶-喷气-仿射位置空间
发表机构 * School of Physics, Ningxia University(宁夏大学物理学院)
AI总结 本文提出PJ-RoPE,一种统一RoPE、Jordan-RoPE和ALiBi的傅里叶-喷气-仿射相对位置空间,通过可学习参数适应不同任务,并引入自适应扇区诊断和LC/快度坐标稳定高阶喷气。
面向个性化的自监督用户画像生成
发表机构 * Snap Inc.(Snap公司) ; bellevue, WA USA(华盛顿州西雅图市)
AI总结 提出BUMP框架,利用自监督双向排序目标训练大语言模型生成用户文本画像,无需下游标注即可实现个性化。
大型线性自编码器中学习机制的三棱柱层次结构
发表机构 * Applied AI Institute(应用人工智能研究所) ; Steklov Mathematical Institute of Russian Academy of Sciences(俄罗斯科学院斯捷克洛夫数学研究所)
AI总结 本文通过形式损失展开层次结构,将大型权重绑定线性自编码器的极端学习机制与三棱柱的面相关联,推导出五种基本极端机制下的训练和总体损失演化显式表达式。
面向循环工厂的不确定性感知功能行为预测与材料疲劳评估
发表机构 * IPEK Institute of Product Engineering, Karlsruhe Institute of Technology (KIT)(IPEK产品工程研究所,卡尔斯鲁厄理工学院) ; IAM-WK Institute for Applied Materials – Materials Science and Engineering, Karlsruhe Institute of Technology (KIT)(应用材料研究所–材料科学与工程,卡尔斯鲁厄理工学院) ; wbk Institute of Production Science, Karlsruhe Institute of Technology (KIT)(生产科学研究所,卡尔斯鲁厄理工学院)
AI总结 针对循环工厂中回收产品异质退化状态下的再利用决策问题,提出一种结合不确定性感知功能预测与组件级疲劳评估的实例特定可靠性框架,通过卷积编码器提取载荷模式、LSTM预测功能变量、有限元应力重建与疲劳损伤评估,实现功能、材料和系统可靠性轨迹的融合。
GITCO:TSFMs中的门控推理时上下文优化
发表机构 * arXiv.org ; cs.AI(计算机科学与人工智能)
AI总结 提出GITCO框架,通过门控机制在推理时选择性抑制有害补丁,无需更新参数即可提升基于补丁的时间序列基础模型的零样本预测精度。
基于概率信念追踪的多轮人类可说服性模型
发表机构 * Stanford University(斯坦福大学) ; University of Washington(华盛顿大学)
AI总结 提出PERSUASIONTRACE框架,通过记录多轮信念报告、标注修辞维度并引入贝叶斯网络模拟目标,将说服评估从端点变化转向过程保真度。
基于最优传输势的多边缘流匹配
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出一种利用动态最优传输势引导流匹配学习中间边缘分布的方法,实现高效无模拟的多边缘流匹配,在单细胞RNA测序、海洋学和气象数据集上取得最优性能。