Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation
排行榜的排名区间:模型评估的分层框架
发表机构 * Department of Statistics and Data Science(统计与数据科学系)
AI总结 提出分层框架,通过任务级置信区间和排行榜级预测区间,实现具有统计保证的模型排名不确定性量化。
排行榜的排名区间:模型评估的分层框架
发表机构 * Department of Statistics and Data Science(统计与数据科学系)
AI总结 提出分层框架,通过任务级置信区间和排行榜级预测区间,实现具有统计保证的模型排名不确定性量化。
迷失在代码对话者的流程中:揭示代码任务中大语言模型的指令微调税
发表机构 * Singapore Management University(新加坡国立管理学院) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 本研究首次实证发现指令微调在代码任务中导致权衡:增强指令遵循能力却削弱代码填充性能,称之为“指令微调税”,并通过定性和定量分析总结出七项发现和四项启示。
Comments 25 pages, 6 figures. Evaluation toolkit and dataset: https://github.com/arkosioscambions/CodeTalkers
数据代理遭受攻击:LLM驱动的分析系统中的漏洞
发表机构 * Nanyang Technological University, Singapore(南洋理工大学,新加坡) ; The Hong Kong Polytechnic University(香港理工大学) ; Tsinghua University(清华大学)
AI总结 本研究系统分析了LLM驱动的数据代理的安全漏洞,提出了分层漏洞框架和攻击分类法,并在六个系统上评估了攻击效果,揭示了当前系统的重大安全缺陷。
利用扩散模型翻译器从He I 10830 Å观测重建合成SDO/AIA 193 Å EUV图像
发表机构 * Department of Mechanical and Industrial Engineering, New Jersey Institute of Technology(机械与工业工程系,新泽西理工学院) ; Department of Physics, New Jersey Institute of Technology(物理系,新泽西理工学院) ; Department of Computer Science, Sam Houston State University(计算机科学系,萨姆霍斯顿州立大学) ; Department of Computer Science, New Jersey Institute of Technology(计算机科学系,新泽西理工学院) ; Department of Data Science, New Jersey Institute of Technology(数据科学系,新泽西理工学院)
AI总结 提出基于扩散的日冕洞感知翻译模型(CH-aware DMT),从He I图像重建AIA 193 Å EUV图像,在测试集上保持全盘EUV形态(CC=0.92)和日冕洞结构(CC=0.84),并通过历史数据验证其物理合理性。
基于大语言模型的恶意Web服务器日志检测与取证可解释推理的样本高效方法
发表机构 * University of Tuebingen(图宾根大学)
AI总结 提出CEF-Log策略,通过五步推理模板使大语言模型学习日志分析方法,在CSIC 2010数据集上仅用4个示例达到F1=0.99,样本效率提升10倍,并引入新数据集ForenWebLog。
具有泛化保证的GPU加速线性规划参数调优
发表机构 * Siddharth Prasad ; Dravyansh Sharma
AI总结 针对GPU加速线性规划求解器PDLP的超参数调优,基于数据驱动算法设计理论,首次给出学习步长、原始权重等超参数的样本复杂度保证,并通过实验验证了调优必要性。
使用复合模型和部分物理知识的多产品化学反应器贝叶斯优化
发表机构 * Department of Chemical Engineering, Imperial College London(化学工程系,帝国理工学院伦敦分校) ; DCSC, Delft University of Technology(Delft理工大学DCSC)
AI总结 提出一种复合贝叶斯优化方法,利用高斯过程预测物理量并计算利润,结合能量平衡残差惩罚和约束处理,实现多产品反应器的数据驱动实时经济优化。
Comments Accepted to IFAC 2026. 11 pages, 4 figures
可审计的图引导的Kubernetes事件根因分析
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 提出Graph Traversal Agent,结合LLM推理与确定性图操作,通过类型化证据图、有界搜索和独立验证实现可审计的根因分析,在ITBench上F1从0.6087提升至0.9130。
Comments 8 pages, 1 figure. Preprint
提高基于神经网络的集合预报参数化后处理中的锐度
发表机构 * Faculty of Informatics, University of Debrecen(德布雷岑大学信息学院)
AI总结 针对集合预报后处理中锐度下降的问题,通过在损失函数中加入惩罚项,在保持CRPS和RMSE不变的情况下,将中心预测区间宽度相对减小8.2%-12.5%。
Comments 18 pages
朋友还是敌人?俄罗斯虚假信息压力下开放权重大语言模型中的语言意识形态开关
发表机构 * Institute of Culture Studies, University of Silesia in Katowice(文化研究学院,卡托维察大学) ; University of Texas at Austin(德克萨斯大学奥斯汀分校) ; National Aviation University(国家航空大学)
AI总结 本文通过控制实验发现,针对不同语言社区微调的大语言模型在俄罗斯虚假信息压力下,其抵抗能力与预期文化对齐方向相反,揭示了微调悖论。
快速且鲁棒的设备端说话人日志:步长加速管道的相对最小聚类大小
发表机构 * University of Tokyo(东京大学)
AI总结 针对设备端说话人日志的推理成本问题,提出相对最小聚类大小(mcs=round(f*n), f=0.01)以自适应嵌入预算,在保持AMI上DER不变的同时,将VoxConverse的DER从0.113恢复至0.079,加速比达12.2倍。
通过发起野生的代码理解之旅来投射SWE代理新兴思维模式
发表机构 * School of Computer Science and Technology, Tongji University(同济大学计算机科学与技术学院)
AI总结 本文通过有限工具接口让SWE代理在真实代码库中探索,提出Ada框架,利用观察透镜分析代理的导航、证据选择、综合、基础化和停止行为,将轨迹数据转化为可比较的行为画像。
FlashCP: 面向LLM训练的负载均衡且通信高效的上下文并行
发表机构 * Stanford University(斯坦福大学)
AI总结 提出FlashCP框架,通过分片感知通信消除冗余KV传输,并设计Whole-Doc分片策略与启发式算法,实现负载均衡与通信高效,在多种数据集上取得最高1.63倍加速。
Comments 10 pages, 6 figures
OctaOctree神经辐射度用于实时光泽材质渲染
发表机构 * Peking University(北京大学)
AI总结 提出OctaOctree表示,通过空间自适应八叉树耦合八面体方向图,高效编码高频出射辐射分布,实现单次网络查询的实时高质量全局光照。
Comments 11 pages, 9 figures
LOTTERY: 在样本量不对称下的双样本检验中仅从参考样本学习
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对参考样本丰富而查询样本极少的双样本检验问题,提出利用参考样本学习依赖参考的表示并自适应加权,实现置换检验的I类错误控制和一致性。
Comments 16 pages, 1 figure
通过训练感知的条件扩散模型改进贝叶斯优化
发表机构 * National University of Singapore(新加坡国立大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出利用条件扩散模型高效近似最优解分布,并开发贝叶斯优化固有的训练策略和基于扩散的模态搜索采集函数,理论保证次优性,实验优于标准基线。
X-Palm: 用于跨域掌纹认证的配对多光谱到智能手机数据集
发表机构 * Singapore Institute of Technology(新加坡科技学院) ; Università degli Studi di Milano(米兰大学) ; University of Toronto(多伦多大学)
AI总结 为解决掌纹识别中受控注册与非约束认证之间的域差距,提出首个配对身份的多光谱-智能手机跨域数据集X-Palm,包含6006张图像,覆盖大规模模态和环境变化,实验表明现有模型在该数据集上性能严重下降,而基于X-Palm训练的模型具有跨域鲁棒性。
AI 代码沙箱:比较安全研究。第 1 部分(共 2 部分)——引擎级属性(攻击面、泄露、可堆叠性、CVE 历史、补丁节奏、模糊测试)
发表机构 * orbitalab.dev(orbitalab实验室) ; fellows.tech(fellows技术)
AI总结 本文通过六项引擎级测量,比较五种 AI 沙箱产品隔离访客代码与主机内核的能力,发现引擎类在架构轴上清晰分离,但产品内无差异;补丁策略是主要操作变量;模糊测试投资分为三层,最强组合(微VM × 持续公共模糊测试)空缺。
Comments 61 pages, 7 figures, 33 tables; Part 1 of 2; companion code repository (Apache-2.0): https://github.com/orbitalab/RnD-ai-sandboxes-sec-study-part-1
隐藏在普通浮点数中:用于间接提示和内容注入的隐写载体
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 研究结构化浮点参数作为隐写载体绕过文本检测器实现LLM间接提示/内容注入,实验显示在最强防御下泄露ASR达94.3%。
Comments Accepted as a poster at FAGEN@ICML 2026. 14 pages, 3 figures
历史与模型对LLM评分的影响:高级软件工程课程研究
发表机构 * City University of Hong Kong(香港城市大学)
AI总结 针对研究生阅读报告评分负担重的问题,提出人机协同的LLM辅助评分流程,基于180份作业评估Grok和GPT的评分一致性与人类对齐,发现交互历史导致评分标准漂移,需特定操作缓解不公平。
Comments 5 pages, accepted by ISET 2026
一种适用于高度非平稳环境的切换波束形成器
发表机构 * Electrical and Computer Engineering, Stony Brook University(石溪大学电气与计算机工程系) ; Electrical and Computer Engineering, University of Illinois Chicago(伊利诺伊大学芝加哥分校电气与计算机工程系) ; Electrical and Computer Engineering, University of Massachusetts Dartmouth(马萨诸塞大学达特茅斯分校电气与计算机工程系) ; College of Applied Science and Engineering, Stony Brook University(石溪大学应用科学与工程学院)
AI总结 针对复杂快速变化干扰下自适应波束形成性能下降的问题,提出通用切换波束形成器(USB),通过竞争性序列预测和线性转移图动态调整有效记忆长度,理论证明其遗憾上界,实验验证其兼具短窗口的敏捷性和长窗口的精度。
Comments 11 pages, 19 figures, under review
基于近端梯度的贝叶斯先验预测编码
发表机构 * Department of Mechanical Engineering and Dynamical Neuroscience Program(机械工程与动力神经科学项目部) ; UC Santa Barbara
AI总结 将预测编码重新表述为应用于正则化最大后验目标的连续时间近端梯度下降,揭示了其与漏泄发放率网络的等价性,并推广到分层结构。
Comments 13 pages, 2 figures, technical report
SoK: 合成表格数据的重建攻击(来自赢得NIST CRC的见解)
发表机构 * School of Engineering and Technology, University of Washington Tacoma(华盛顿大学塔科姆分校工程与技术学院) ; Department of Mathematics, Computer Science, and Statistics, Ghent University(根特大学数学、计算机科学与统计学系)
AI总结 本文系统化了针对去标识化和合成表格数据的重建攻击,提出分类法、最全面的实证评估和新攻击,并引入解释攻击成功的方法论,发现合成数据生成方法比攻击选择更影响风险,差分隐私仅在低预算下有效。
可编程硅视网膜在像素处理器阵列上的实现
发表机构 * Department of Electrical and Electronic Engineering, University of Manchester, UK(电气与电子工程系,曼彻斯特大学,英国) ; Department of Electronic Systems Engineering, Indian Institute of Science, Bangalore, India(电子系统工程系,印度科学研究院,班加罗尔,印度) ; Department of Computer Science, University of Manchester, UK(计算机科学系,曼彻斯特大学,英国)
AI总结 在SCAMP-5像素处理器阵列上首次实现多级硅视网膜模型,通过空间滤波和增益控制等生物启发处理,在视频显著性预测中损失降低13%,事件率减少约47%。
Emergence World: 一个用于评估长时域多智能体自主性的平台
发表机构 * Emergence AI
AI总结 提出一个持续运行的多智能体模拟平台,通过集成实时外部数据、120+工具和持久记忆系统,评估LLM代理在长时域(数周至数月)中的行为漂移、治理和跨模型影响等动态特性。
"所以这里有个第22条军规":构建多智能体LLM系统的早期采用者如何概念化透明度
发表机构 * Purdue University(普渡大学) ; Cornell University(康奈尔大学) ; Microsoft Research(微软研究院)
AI总结 通过访谈13位早期采用者,研究多智能体LLM系统构建者如何理解透明度,提出包含可重复性、调试、边界设定、可视化和审计的多维框架,强调透明度作为情境化的社会技术实践。
MEC-Cox:基于机器学习的广义熵校准用于ATT边际风险比估计
发表机构 * Department of Statistics, Texas A&M University(统计学系,德克萨斯A&M大学) ; Department of Mathematics, Korea Military Academy(数学系,韩国军事学院) ; Department of Statistics, Iowa State University(统计学系,爱荷华州立大学)
AI总结 提出MEC-Cox方法,结合机器学习辅助的广义熵校准与逆概率加权Cox回归,估计处理组平均处理效应(ATT)边际风险比,通过校准预后评分减少偏差并提高效率。
策略类型空间
发表机构 * CNRS - École Polytechnique, London School of EconomicsUniversity of Texas at Austin(法国国家科学研究中心-巴黎政治学院,伦敦经济学院,德克萨斯大学奥斯汀分校)
AI总结 提出策略商概念,证明最小策略类型空间的存在性与唯一性,并揭示其递归结构可由有限自动机刻画。
QnRL: 量子原生强化学习
发表机构 * Bradley Department of Electrical and Computer Engineering(布拉德利电气与计算机工程系) ; Virginia Tech Institute for Advanced Computing(弗吉尼亚理工学院高级计算研究所)
AI总结 提出量子原生强化学习(QnRL)框架,利用量子态的叠加和纠缠在希尔伯特空间中直接学习条件分布,通过量子振幅反冲(QuAK)算法比较分布矩,从而更高效地建模随机环境,实验显示评分提升高达82.9%,参数减少94.3%。
Comments 36 pages, 23 figures
后AGI经济:叠加性与福利经济学第二基本定理
发表机构 * Centre for Quantum Software & Information(量子软件与信息中心)
AI总结 针对后AGI经济中自治权、自我修改和叠加偏好对经典福利第二定理的挑战,提出自治限定第二福利定理,给出可分散化的条件。