Calibrating Decision Robustness via Inverse Conformal Risk Control
通过逆保形风险控制校准决策鲁棒性
发表机构 * Wenbin Zhou(周文彬) ; Shixiang Zhu(朱世祥)
AI总结 提出逆保形风险控制框架,为鲁棒优化策略提供无分布、有限样本的误覆盖与遗憾保证,通过追踪Pareto前沿帮助决策者根据成本-风险偏好校准鲁棒性水平。
通过逆保形风险控制校准决策鲁棒性
发表机构 * Wenbin Zhou(周文彬) ; Shixiang Zhu(朱世祥)
AI总结 提出逆保形风险控制框架,为鲁棒优化策略提供无分布、有限样本的误覆盖与遗憾保证,通过追踪Pareto前沿帮助决策者根据成本-风险偏好校准鲁棒性水平。
当通用提示改进有害:LLM应用的评估驱动迭代
发表机构 * Daniel Commey
AI总结 提出最小可行评估套件(MVES),通过结构化评估框架和本地复现实验,发现通用提示添加并非单调改进,强调评估驱动的提示迭代。
一种面向评委的排名框架:无需真实标签评估大语言模型
发表机构 * University of Technology Sydney(悉尼科技大学)
AI总结 本文提出一种面向评委的排名框架,通过引入评委特定的辨别参数扩展Bradley-Terry-Luce模型,在不参考标签的情况下联合估计潜在模型质量和评委可靠性,从而提高人类偏好的一致性,提高数据效率,并产生校准的不确定性量化。
评估LLM生成数据的质量与可信度综述
发表机构 * University of Houston(德克萨斯大学休斯敦分校) ; Worcester Polytechnic Institute(沃思利理工学院) ; Rice University(里德大学) ; Texas A&M University(德克萨斯农工大学) ; University of Wisconsin - Madison(威斯康星大学麦迪逊分校) ; University of Southern California(南加州大学) ; University of North Carolina at Charlotte(北卡罗来纳州立大学夏洛特分校)
AI总结 提出LLM数据审计框架,从质量和可信度两个维度系统分类评估指标,分析六种模态数据生成方法的评估缺陷并给出改进建议。
鲁棒隐私:通过认证鲁棒性实现推理阶段隐私
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出鲁棒隐私(RP)概念,基于认证鲁棒性确保预测在输入邻域内不变,从而限制推理阶段隐私泄露;实验表明RP在属性推断和模型反演攻击中有效提升隐私-效用权衡。
混合专家模型对特征噪声的鲁棒性
发表机构 * Dong Sun(东Sun) ; Rahul Nittala(拉胡尔·尼塔拉) ; Rebekka Burkholz(蕾贝卡·布克霍尔兹)
AI总结 研究混合专家模型在特征噪声下的鲁棒性,发现稀疏专家激活能作为噪声滤波器,相比密集网络具有更低的泛化误差、更强的鲁棒性和更快的收敛速度。
可解释ASP的XAI视角:方法、系统与展望
发表机构 * Institute of Logic and Computation, TU Wien, Austria(逻辑与计算研究所,维也纳技术大学,奥地利)
AI总结 本文从XAI视角综述回答集编程(ASP)的解释方法,分类解释类型并评估现有理论与工具的覆盖范围,指出研究空白与未来方向。
间歇性时间序列预测:局部模型与全局模型
发表机构 * Supplementary Institute of Science and Technology(瑞士苏黎世联邦理工学院)
AI总结 针对间歇性时间序列预测问题,首次系统比较了概率性局部模型与全局模型(如TiDE),发现简单神经网络架构TiDE在精度和计算效率上均优于局部模型,且Tweedie分布头对高分位数估计最佳。
用于平滑且可解释的归一化流的解析双射
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出三类全局光滑、解析可逆的双射函数,替代耦合流中的仿射变换或样条,并设计径向流架构,在径向结构目标上以千分之一参数达到耦合流质量。
反向流匹配:基于扩散与流策略的在线强化学习统一框架
发表机构 * Zeyang Li(李泽阳) ; Sunbochen Tang(唐顺波晨) ; Navid Azizan(阿齐兹安纳维)
AI总结 针对在线强化学习中扩散与流策略缺乏目标样本的问题,提出反向流匹配框架,通过后验均值估计和Langevin Stein算子构造控制变量,统一了噪声期望与梯度期望两类方法,并扩展到流策略,提升训练效率与稳定性。
与参考标准对照评判:揭示LLM评判者在QA评估中知识驱动的失败模式
发表机构 * Dept. of ECE, Seoul National University(电子工程系,首尔国立大学) ; LG AI Research(LG人工智能研究) ; IPAI, Seoul National University(IPAI,首尔国立大学)
AI总结 本文发现LLM作为QA自动评判者时,当提供的参考答案与模型参数知识冲突,评分可靠性严重下降;通过引入交换参考答案框架系统研究该现象,揭示评判者过度依赖参数知识而忽略参考标准,且常见提示缓解策略无效。
M4FC:一个多模态、多语言、多文化、多任务的真实世界事实验证数据集
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(Mohamed bin Zayed人工智能大学) ; Ubiquitous Knowledge Processing Lab(ubiquitous知识处理实验室) ; Department of Computer Science, TU Darmstadt(TU Darmstadt计算机科学系) ; National Research Center for Applied Cybersecurity ATHENE(应用网络安全国家研究中心ATHENE) ; Department of Electrical Engineering, KU Leuven(KU Leuven电气工程系) ; Department of Computer Science, KU Leuven(KU Leuven计算机科学系)
AI总结 为解决现有事实验证数据集规模小、语言单一、任务局限等问题,提出包含4982张图片和6980条声明的多模态数据集M4FC,覆盖6个验证任务,并提供基线结果。
引导噪声:将随机扰动转化为有效下降方向以实现内存高效的LLM微调
发表机构 * School of Intelligence Science and Technology(智能科学与技术学院) ; Institute for Artificial Intelligence(人工智能研究院) ; Peking University(北京大学) ; State Key Laboratory of General Artificial Intelligence(通用人工智能国家重点实验室)
AI总结 提出一种即插即用框架,通过候选扰动池选择或组合与优化目标对齐的扰动,改进零阶优化梯度估计,提升LLM微调的收敛速度和任务精度。
FronTalk: 以多模态反馈进行对话式代码生成的前端开发基准测试
发表机构 * Meta Superintelligence Labs(Meta超智能实验室) ; University of California, Los Angeles(加州大学洛杉矶分校) ; Duke University(杜克大学)
AI总结 提出FronTalk基准,通过多轮对话和多模态反馈(文本与视觉指令)评估前端代码生成,发现模型存在遗忘和视觉反馈理解困难,提出AceCoder方法有效减少遗忘并提升性能。
高阶类PCA旋转不变特征用于模旋转的详细形状描述符
发表机构 * Jarek Duda
AI总结 提出将PCA扩展到高阶张量(如三阶中心矩)或多项式乘高斯分布,以获取更精确的旋转不变形状描述符,并应用于分子形状描述、物体识别和形状相似性度量。
AsFT:在窄安全盆地内锚定大语言模型微调期间的安全性
发表机构 * National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学)
AI总结 针对微调大语言模型时安全性易受损的问题,提出AsFT方法,通过惩罚与对齐方向正交的更新,将模型约束在窄安全盆地内,在提升任务性能的同时显著降低有害行为。
通过降维可视化LLM潜在空间几何结构
发表机构 * Department of Computer Science, University of Virginia(计算机科学系,弗吉尼亚大学)
AI总结 通过PCA和UMAP降维,可视化GPT-2和LLaMa中Transformer层的潜在状态几何,发现注意力与MLP输出分离、初始位置高范数及螺旋结构等模式。
推理的几何:有效数学推理的谱特征
发表机构 * Valentin Noël(瓦伦丁·诺埃尔)
AI总结 通过将注意力矩阵视为加权词图,提取四个无需学习的谱诊断指标(Fiedler值、高频能量比、谱熵和平滑度),有效区分有效推理与模式匹配,在多个模型上达到85-96%的分类准确率。
通过整合贝叶斯回归、树集成和Shapley值对流行病学数据进行线性之外的发现与推断
发表机构 * Amsterdam UMC Leiden University(阿姆斯特丹大学医学中心-莱顿大学) ; Leiden University(莱顿大学) ; Amsterdam UMC(阿姆斯特丹大学医学中心)
AI总结 提出RuleSHAP框架,结合贝叶斯稀疏回归、改进的树规则生成器和Shapley值,实现非线性与交互效应的检测及个体水平的不确定性量化,应用于流行病学数据发现高胆固醇和血压的影响因素。
MPK:一种用于将张量程序转化为巨型内核的编译器和运行时系统
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Tsinghua University(清华大学) ; NVIDIA ; University of Michigan(密歇根大学) ; Independent Researcher(独立研究者) ; Peking University(北京大学)
AI总结 提出MPK,首个自动将多GPU模型推理转化为单个高性能巨型内核的编译器和运行时系统,通过SM级图表示实现跨算子软件流水线和细粒度计算通信重叠,显著降低推理延迟。
基于视觉辅助的相对状态估计用于移动平台进近与着陆的惯性测量
发表机构 * I3S, CNRS, Université Côte d’Azur(I3S、CNRS、普罗旺斯大学) ; Département d’informatique et d’ingénierie, Université du Québec en Outaouis and Department of Electrical Engineering, Lakehead University(信息与工程系、魁北克大学 Outaouais 以及拉夫堡大学电子工程系) ; Systems Theory and Robotics Group Australian National University(系统理论与机器人组、澳大利亚国立大学) ; Institut Universitaire de France (IUF)(法国高等研究院)
AI总结 提出一种级联观测器,结合SO(3)互补滤波和线性Riccati观测器,利用IMU和单目相机估计无人机与移动平台的相对位姿和速度,在持续激励条件下实现几乎全局渐近稳定。
RSTR: 减少扩散Transformer中的时空冗余
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出RSTR框架,通过进化搜索和自适应秩分配联合减少扩散Transformer中的时空冗余,实现50%-70%计算节省并保持或提升生成质量。
SEDULity:一种面向分布式安全区块链的高效有用工作证明学习框架
发表机构 * Department of Electrical and Computer Engineering(电气与计算机工程系)
AI总结 提出一种名为SEDULity的证明学习框架,通过将区块模板编码到训练过程中并设计难解易验的有用函数替代PoW谜题,在保持区块链安全性的同时高效训练机器学习模型。
Pass@K 策略优化:解决更困难的强化学习问题
发表机构 * Google DeepMind(谷歌深Mind)
AI总结 提出 Pass-at-k 策略优化 (PKPO),通过变换奖励直接优化 pass@k 性能,利用低方差无偏估计器,在训练中退火 k 可同时提升 pass@1 和 pass@k,解决更难问题。
基于AI生成描述的1亿+星系图像语义搜索
发表机构 * New York University(纽约大学) ; University of Toronto(多伦多大学) ; Dunlap Institute for Astronomy & Astrophysics(达伦普天文与天体物理研究所) ; University of California, Berkeley(加州大学伯克利分校) ; Center for Data Science(数据科学中心) ; Lawrence Berkeley National Lab(伯克利国家实验室) ; Flatiron Institute(Flatiron研究所) ; Université Paris-Saclay(巴黎-萨克莱大学) ; CEA(法国原子能委员会) ; CNRS(法国国家科学研究中心) ; AIM(应用数学研究所) ; Princeton University(普林斯顿大学)
AI总结 提出利用视觉语言模型生成星系图像描述,并对比对齐预训练天文学基础模型,构建可搜索嵌入,实现大规模星系图像的语义搜索,在稀有现象发现上取得最先进性能。
N体问题:从单人物体中心视频进行并行执行
发表机构 * University of Bristol(布里斯托尔大学) ; The University of Tokyo(东京大学)
AI总结 提出N体问题,从单人物体中心视频预测N人并行执行任务,通过结构化提示策略引导视觉语言模型推理3D环境、物体使用和时间依赖,在EPIC-Kitchens和HD-EPIC数据集上显著提升动作覆盖率并降低冲突。
从随机森林中可证明地恢复局部重要符号特征和交互
发表机构 * Faculty of Informatics and Data Science, University of Regensburg, Germany(信息与数据科学学院,莱茵河畔雷根斯堡大学)
AI总结 提出一种局部、模型特定的特征与交互重要性方法,通过结合全局和局部决策路径模式,在局部尖峰稀疏模型下可证明地恢复真实信号特征及其交互,并识别特征值大小对预测的驱动方向。
MobileFineTuner:面向真实世界嵌入式AI应用中设备端大语言模型微调的移动原生框架
发表机构 * Duke Kunshan University(Duke昆山大学) ; The University of Hong Kong(香港大学)
AI总结 提出移动原生框架MobileFineTuner,通过C++实现资源感知训练运行时(内存高效注意力、激活检查点等),在商用手机上实现端到端LLM微调,显著降低内存压力并提升可执行性。
不负责任的人工智能:大型科技公司对AI研究的影响及相关影响
发表机构 * Big Tech(大科技公司)
AI总结 本文指出大型科技公司对AI研究的不成比例影响推动了不负责任的AI发展,并加剧了环境和社会负面影响,呼吁研究者通过集体行动加以抵制。
算法并非行为:学得的先验知识在弈棋神经网络中覆盖前瞻
发表机构 * Fraunhofer HHI(弗劳恩霍夫人工智能研究所)
AI总结 研究发现,国际象棋神经网络Leela Chess Zero在中间层能正确计算解法,但最终输出被安全优先的先验知识覆盖,导致错误答案。