Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why
LLM作为评判者的评估一致性指标:报告什么及为什么
发表机构 * University of Pennsylvania(宾夕法尼亚大学)
AI总结 本文通过调查24篇近期论文,指出在二元评判标准下多数一致性指标冗余,强调Cohen's κ提供额外信息,并给出报告清单。
LLM作为评判者的评估一致性指标:报告什么及为什么
发表机构 * University of Pennsylvania(宾夕法尼亚大学)
AI总结 本文通过调查24篇近期论文,指出在二元评判标准下多数一致性指标冗余,强调Cohen's κ提供额外信息,并给出报告清单。
对齐细胞层与分类器注意力以实现可解释的弱监督病理定位
发表机构 * Turocrates AI Private Limited(Turocrates AI私有有限公司)
AI总结 针对弱监督全切片图像分类中注意力图定位不准确的问题,提出结合细胞层与注意力机制的一致性训练方法,在Camelyon16上实现补丁级AUC 0.940,并提升注意力AUC从0.717至0.953。
DLLM-JEPA:用于掩码扩散语言模型的联合嵌入预测架构
发表机构 * arXiv.org ; cs.CL(计算机科学与语言学)
AI总结 提出DLLM-JEPA,通过将联合嵌入预测架构与掩码扩散语言模型结合,消除显式多视图数据和双梯度前向传播需求,在多个任务上提升准确率并降低训练FLOPs。
物理AI中的静默故障:自主系统运行时动作授权的文献综述
发表机构 * STATE16
AI总结 本文综述了物理AI系统中黑箱模型发出看似合理但实际错误的物理动作导致的静默故障问题,提出了运行时防护栏的分类和评估要求。
物理世界中是否存在可预测的动态?
发表机构 * STATE16 ; Technion - Israel Institute of Technology(技术Ion - 以色列理工学院) ; Reichman University(Reichman大学) ; Google-Reichman AI Tech School(Google-Reichman人工智能技术学院)
AI总结 本文提出物理可接受性作为预测-控制接口,通过运动学、动力学和直接到组合的视界条件评估解码提案的物理可执行性,实验表明该方法能有效识别无效提案并保持任务进度。
结构化视觉证据分解用于阻塞性睡眠呼吸暂停低通气综合征的证据驱动多模态筛查
发表机构 * School of Electronic and Electrical Engineering, Shanghai University of Engineering Science(上海工程技术大学电子与电气工程学院) ; Tencent Youtu Lab(腾讯云视频实验室) ; ENT Institute and Department of Otorhinolaryngology, Eye & ENT Hospital of Fudan University(复旦大学耳鼻喉科医院耳鼻喉科研究所) ; National University of Singapore(新加坡国立大学)
AI总结 提出EviOSAHS框架,通过将面部图像分解为七个解剖查询并生成结构化证据卡,结合临床信息进行高灵敏度OSAHS筛查。
基于图扩散的全身逆运动学
发表机构 * Large Model Algorithm Lab, Huawei(华为大模型算法实验室)
AI总结 提出GraphDiff-IK,一种结构感知的图扩散逆运动学框架,通过将机器人表示为运动学图并引入分层消息传递和躯干感知条件,实现了多分支机器人的准确稳定IK求解。
平衡精度与效率:模型预测控制的自适应动力学编排
发表机构 * Department of Electrical and Computer Engineering, University of Michigan, Ann Arbor, MI, USA(1. 电气与计算机工程系,密歇根大学,安娜堡,密歇根州,美国)
AI总结 提出自适应动力学编排(ADO)框架,通过在线反事实滚动评估模型残差,动态选择最适合当前导航上下文的动力学模型,在计算效率与预测精度之间取得平衡。
BitsMoE: 面向MoE大语言模型量化的频谱能量引导比特分配
发表机构 * School of Microelectronics, University of Science and Technology of China(中国科学技术大学微电子学院) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算与数据科学学院) ; School of Electrical and Electronic Engineering, Nanyang Technological University(南洋理工大学电子与电气工程学院)
AI总结 提出BitsMoE框架,通过SVD分解和频谱能量引导的混合精度比特分配,解决MoE模型超低位量化中的精度损失问题,在Qwen3-30B-A3B-Base上2比特量化下准确率提升27.83个百分点。
基于流的生成建模优化压缩感知应用中的采样策略
发表机构 * Eindhoven University of Technology(埃因霍温理工大学)
AI总结 提出一种任务感知的基于流的生成框架,通过训练流模型优化压缩感知中的子采样掩码,显著提升图像分类、重建和MRI加速的性能。
视觉任务中的改进信念注意力
发表机构 * University of Exeter(埃克塞特大学)
AI总结 提出Belief2-Attention,通过同时利用垂直分量和投影分量扩展信念注意力,并引入额外内积矩阵增强标记相关性,提升视觉任务性能。
DefocusTrackerAI -- 一种用于自动检测离焦粒子图像的通用框架
发表机构 * IN+ Center for Innovation, Technology and Policy Research, Instituto Superior Técnico, University of Lisbon, Lisbon, Portugal(IN+创新、科技与政策研究中心,理工学院,里斯本大学,里斯本,葡萄牙) ; CINAMIL - Military Academy Research Center, Militart Academy, Portugal(CINAMIL - 军事学院研究中心,军事学院,葡萄牙) ; Department of Industrial Engineering, Alma Mater Studiorum University of Bologna, Bologna, Italy(工业工程系,博洛尼亚大学,博洛尼亚,意大利)
AI总结 提出DefocusTrackerAI,一种基于YOLOv9的通用深度学习框架,用于自动检测和位置估计离焦粒子图像,在多种光学配置下实现高召回率和低不确定性。
Invascal: 面向不确定性感知激光雷达距离视图语义分割的逆空性自校准
发表机构 * Faculty of Engineering and Computer Science, University of Applied Sciences Aschaffenburg(工程与计算机科学学院,阿施费尔德应用科学大学)
AI总结 提出一种与架构无关的不确定性感知适配器头,通过偏好头和强度头分解预测,并设计逆空性自校准目标(Invascal)来监督强度信号,实现可靠且校准良好的不确定性估计,同时保持分割精度。
DUET: 扩散与流匹配驱动的文本转语音的统一双空间情感控制
发表机构 * Frontier AI Research Centre, Macquarie University(前沿人工智能研究中心,麦考瑞大学)
AI总结 提出DUET框架,通过隐空间引导和梅尔谱梯度修正的双空间控制,在预训练扩散/流匹配TTS模型中实现细粒度情感控制,超越10个有监督基线。
非线性粘性流体中的线性运动映射
发表机构 * Department of Robotics, University of Michigan(机器人学系,密歇根大学) ; Departments of Electrical Engineering and Computer Science, and Ecology and Evolutionary Biology(电气工程与计算机科学系、生态与进化生物学系)
AI总结 研究在低雷诺数流体中,线性运动映射扩展到幂律流体,并发现Carreau-Yasuda流体可违反该线性性质实现净运动,方向可随速度改变。
跨实体金融情感分析的图增强检索:一项比较研究
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校)
AI总结 本文提出一种两跳图增强检索架构(Graph-RAG),通过构建情感加权知识图谱并融合密度检索与图遍历,相比标准向量检索在跨实体金融情感分析中显著提升实体召回率和复杂查询答案相关性。
机电系统参数辨识中最优实验设计的强化学习方法
发表机构 * Josef Ressel Centre for Intelligent and Secure Industrial Automation, Salzburg University of Applied Sciences, Salzburg, Austria(约瑟夫·雷斯尔智能与安全工业自动化中心,萨尔茨堡应用技术大学,萨尔茨堡,奥地利) ; Paris Lodron University of Salzburg, Salzburg, Austria(萨尔茨堡巴黎洛登伦大学,萨尔茨堡,奥地利)
AI总结 提出一种强化学习智能体,通过奖励塑形自主满足安全约束,为Quanser Aero 2测试平台学习最优激励信号,在三个辨识参数上均达到竞争性估计精度,且安全违规率仅0.75%。
从人类视频到机器人操作:基于人类中心数据的可扩展视觉-语言-动作学习综述
发表机构 * Tsinghua University(清华大学) ; HKUST(香港科技大学) ; Xi’an Jiaotong University(西安交通大学) ; Fudan University(复旦大学) ; Microsoft Research Asia(微软亚洲研究院) ; Peking University(北京大学) ; Microsoft Zurich Project(微软苏黎世实验室)
AI总结 本文综述了如何将丰富的人类视频转化为视觉-语言-动作(VLA)模型的有效知识,分类了四种方法(潜在动作表示、预测世界模型、显式2D监督、显式3D重建),并指出了结构化非结构化视频、跨具身和视角的动作映射、以及评估协议设计三大挑战。
VLAMotor: 通过基于智能体的数据合成实现视觉-语言-动作模型的测试引导增强
发表机构 * School of computing and data science, Nanyang Technological University(计算与数据科学学院,南洋理工大学) ; School of Software Engineering, Sun Yat-sen University(软件工程学院,中山大学) ; GuangDong Engineering Technology Research Center of Blockchain, China(区块链工程技术研发中心,中国) ; Northwest A&F University(西北农林科技大学)
AI总结 提出VLAMotor框架,通过距离感知测试暴露失败案例,并利用基于智能体的数据合成生成成功轨迹微调VLA模型,显著提升模型在仿真和真实环境中的成功率。
产品感知深度自编码器用于多产品信息物理系统的鲁棒过程监控
发表机构 * University of Cambridge(剑桥大学)
AI总结 针对多产品制造中全局模型因决策边界扩大而产生盲点的问题,提出产品感知自编码器,通过限制学习域到产品特定分布来提升异常检测鲁棒性,在扩展田纳西伊士曼过程基准上实现100%攻击检测。
Grokers: 基于类型化知识图谱的自底向上归纳理解与写入时智能
发表机构 * Gregory Magarshak
AI总结 提出Grokers架构,通过自底向上的依赖子图归纳遍历构建持久结构化理解,将智能推至写入时,实现零额外LM成本的查询,并证明字节同一性、累积单调性和双遍历顺序三个形式性质。
基于结构化临床数据的LLMs心血管风险预测
发表机构 * Central Michigan University(中央密歇根大学)
AI总结 提出混合框架将结构化临床数据转换为自然语言表示,利用LLMs进行冠心病预测,并验证了高保真度与隐私保护优势。
TCAR-Gen: 基于证据融合的时间图检索用于知识增强生成
发表机构 * Dipartimento di Informatica, Università di Verona(威尼斯大学计算机科学系) ; School of Advanced Studies, University of Camerino(坎皮诺大学高级研究学院) ; Department of Computer Science, School of Mathematics and Computer Science, Institute of Business Administration (IBA), Karachi, Pakistan(卡拉奇工商管理学院(IBA)数学与计算机科学学院计算机科学系)
AI总结 提出TCAR-Gen框架,结合查询条件图神经网络、时间证据融合和树链推理,在历史犯罪叙事问答中实现时间推理和多源证据融合,优于现有RAG方法。
医疗大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
发表机构 * John Snow Labs Inc.(约翰·索克斯实验室公司)
AI总结 提出一个多领域红队框架,通过690个临床场景评估11个当代大语言模型,发现平均准确率掩盖了临床意义上的风险,性能方差和最坏情况失败比平均准确率更能反映可靠性,混合评估方法对可信安全评估至关重要。
在线社区中抑郁的认知语言指标:基于DistilBERT和全息简化表示的分析
发表机构 * School of Computing, University of Leeds(利兹大学计算机学院)
AI总结 本研究结合认知语言学特征与DistilBERT嵌入,通过混合模型(DistilBERT+HRR)在Reddit帖子中检测抑郁,宏F1达0.94,优于基线TF-IDF的0.80。
TrustLDM:语言扩散模型的可信度基准测试
发表机构 * State Key Lab of General Artificial Intelligence, School of Intelligence Science and Technology, Peking University(中国科学院自动化研究所,智能科学与技术学院,北京大学) ; CISPA Helmholtz Center for Information Security(信息安全研究所) ; School of EECS, Peking University(电子工程学院,北京大学) ; Institute for Artificial Intelligence, Peking University(人工智能研究所,北京大学)
AI总结 针对语言扩散模型(LDM)的可信度问题,提出TrustLDM基准,评估其在不同架构和恶意上下文下的安全性、隐私性和公平性,并开发自动评估框架TrustLDM-Auto以识别脆弱配置。
lmfaoooo at SemEval-2026 Task 1: 幽默是受众。面向约束幽默生成的偏好建模
发表机构 * Inworld.AI Berlin, Germany(Inworld.AI柏林,德国) ; OpenAI ; Mountain View, CA(山景城,加利福尼亚州)
AI总结 针对约束幽默生成任务,提出“生成多候选-偏好选择”策略,利用人类成对比较训练偏好模型,在MWAHAHA任务英、中、西语子任务中分别获得第1、第1和第2名。
SENSE: 基于软门控评估的语义嵌入导航用于检索式推测解码
发表机构 * arXiv.org ; cs.CL(计算机科学与语言学)
AI总结 提出SENSE方法,通过语义嵌入导航和软门控评估模块替代表面形式匹配,提升检索式推测解码的鲁棒性和加速效果,在LLaMA和Qwen系列上实现最高4.09平均接受长度和3.26倍加速。
CSRP:基于效率感知奖励的强化学习链式推理中文文本纠错
发表机构 * School of Computer Science and Technology, East China Normal University(东华大学计算机科学与技术学院) ; Shanghai Institute of Artificial Intelligence for Education, East China Normal University(东华大学教育人工智能研究所)
AI总结 提出CSRP三阶段框架,通过连续预训练、链式推理监督微调和基于效率感知奖励的组相对策略优化,在NACGEC基准上实现最优性能,有效缓解过度纠正偏差。
MindGames Arena 泛化赛道:具有延迟每步奖励归因的 In2AI 解决方案
发表机构 * iMak AI Lab(iMak人工智能实验室)
AI总结 提出延迟每步奖励归因方法,结合资格门控、异步rollout生成和课程对手采样,实现多智能体环境中稳定高效的强化学习训练,并在NeurIPS 2025的MindGames Arena基准测试中取得领先。