Few-Shot Resampling for Scalable Statistically-Sound Data Mining
少样本重采样:可扩展的统计可靠数据挖掘
发表机构 * Department of Information Engineering, University of Padova(帕多瓦大学信息工程系)
AI总结 提出FewRS方法,基于重采样评估数据挖掘结果的统计显著性,通过推导新的上界偏差界,仅需极少量重采样数据集即可保证假发现概率,显著提升可扩展性。
少样本重采样:可扩展的统计可靠数据挖掘
发表机构 * Department of Information Engineering, University of Padova(帕多瓦大学信息工程系)
AI总结 提出FewRS方法,基于重采样评估数据挖掘结果的统计显著性,通过推导新的上界偏差界,仅需极少量重采样数据集即可保证假发现概率,显著提升可扩展性。
OSCS-SupCon: 基于正交Sigmoid的通用与风格监督对比学习用于鲁棒特征解耦
发表机构 * University of the Basque Country(巴斯克大学) ; IKERBASQUE(伊克尔巴斯克)
AI总结 针对监督对比学习中负样本稀释和特征空间纠缠问题,提出OSCS-SupCon框架,采用Sigmoid对比损失和正交约束,提升特征判别性和泛化能力。
每个行为都有代价:前沿大语言模型中的压缩道德组合
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Michigan(密歇根大学) ; Carnegie Mellon University(卡内基梅隆大学) ; The University of Tokyo(东京大学)
AI总结 针对现有道德基准仅评估孤立行为偏好的不足,提出Moral Trolley Arena两阶段盲ELO基准,通过校准个体道德行为并组合为双行为项,发现前沿LLM的道德判断呈压缩而非简单加性关系。
CFCamo:一种用于伪装目标检测的反事实检测或放弃框架
发表机构 * Graduate School of Information, Production and Systems, Waseda University(早稻田大学信息生产系统研究生院)
AI总结 提出CFCamo框架,通过反事实配对训练和策略优化,使COD模型在检测到目标时输出结果,在无目标时放弃检测,解决了正样本训练导致的过度检测偏差。
文本中语义信息的几何轮廓:帧条件唯一性与标量摘要的权衡三角形
发表机构 * Independent Researcher(独立研究员)
AI总结 提出一个几何框架,通过句子嵌入的结构测量文本语义内容,包括三个坐标(新颖性、广度、整合性),并证明任何标量摘要都无法同时满足分析稳定性、序数鲁棒性和跨表示可比性。
Afrispeech Semantics: 评估跨领域和口音的口语语言模型中的音频语义推理
发表机构 * University of Florida(佛罗里达大学)
AI总结 提出五项语义与副语言推理任务(蕴含、一致性、合理性、口音漂移、口音约束),评估音频语言模型在口音变化、领域迁移和语义过度推断下的推理能力,揭示当前评估的局限性。
超越压缩:面向长周期智能体的结构化上下文驱逐
发表机构 * Kiz8
AI总结 提出上下文窗口生命周期(CWL)方案,通过结构化、语义感知的驱逐策略,使长周期LLM智能体在有限上下文预算内实现无限工作视野,避免性能下降和幻觉。
EverydayGPT: 用于高效安全混合GPT-RAG对话问答的置信门控路由
发表机构 * Dr. A.P.J. Abdul Kalam Technical University(阿卜杜尔·卡拉姆技术大学)
AI总结 提出置信门控路由机制,通过联合策略决定检索与生成路径,使85%的查询使用快速RAG提取,延迟降低120倍以上,同时保持答案质量。
推理下的校准漂移:思维链预算如何导致大型语言模型过度自信
发表机构 * Department of Computer Science and Engineering, Visvesvaraya Technological University, Belagavi(维斯瓦拉亚科技大学计算机科学与工程系,贝拉加维) ; Department of Computer Science and Business System, SG Balekundri Institute of Technology, Belagavi(SG巴莱昆德里理工学院计算机科学与商业系统系,贝拉加维)
AI总结 研究发现,增加思维链推理预算超过任务特定阈值会导致模型对错误答案过度自信,提出校准漂移现象并引入CABStop停止规则。
T2MM:一种支持基于探究建模的LLM架构
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出T2MM架构,利用LLM在生态建模软件VERA中生成交互式模型,优于全代码生成基线。
ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理
发表机构 * LMU Munich(慕尼黑大学) ; Harvard University(哈佛大学) ; University of Cambridge(剑桥大学) ; Mina AI ; Konrad Zuse School of Excellence in Reliable AI (relAI)(康拉德·楚泽可靠人工智能卓越学校(relAI))
AI总结 提出ProcessThinker,一种无需显式过程奖励模型的后训练方法,通过步骤标记格式和基于展开的过程奖励,为多步推理提供密集的步骤级奖励,提升多模态推理一致性。
BioDivergence:生物医学摘要中隐藏上下文矛盾的基准与评估框架
发表机构 * College of Engineering and Computer Science, University of Central Florida(中佛罗里达大学工程与计算机科学学院) ; Burnett School of Biomedical Sciences, University of Central Florida(中佛罗里达大学伯内特生物医学科学学院)
AI总结 提出BioDivergence框架,通过六类冲突分类、13轴分歧本体和结构化输出,解决现有NLI基准无法捕捉生物医学研究中上下文依赖的差异问题,并发布包含11865个声明对的基准数据集。
从显式元素到隐式意图:用于可审计行为推断的预定义库
发表机构 * PARRAWA AI
AI总结 提出SemantiClean框架,通过共享元素库从电商会话数据中提取结构化语义信号,驱动可插拔推断目标,优先保证可审计性和可复现性,而非单纯追求精度。
兼容性感知的动态微调用于大型语言模型
发表机构 * SKL-IOTSC, CIS, University of Macau(澳门大学科技学院电脑与信息科学系及智慧城市物联网国家重点实验室) ; Auckland University of Technology(奥克兰理工大学)
AI总结 提出兼容性感知动态微调(CADFT),通过模型似然度动态调整监督更新,抑制不兼容样本的高方差梯度,提升训练稳定性和泛化能力。
大型语言模型在安全数据提取中的基准测试
发表机构 * SAP SE(SAP公司) ; Institute for Digital Transformation, Ravensburg-Weingarten University(拉文斯堡-魏恩加滕大学数字化转型研究所)
AI总结 针对安全数据表(SDS)的异构格式,本研究基准测试了四种大型语言模型(LLM)在文本与多模态处理下的提取性能,发现文本结合思维链提示的Gemini 1.5 Pro准确率最高(84%),但均未达到90%的可靠部署阈值。
LatticeBridge: 用于忠实结构化序列合成的罕见事件序列推理
发表机构 * Bahcesehir University(巴切塞希尔大学)
AI总结 针对结构化序列生成中约束满足的罕见事件问题,提出LatticeBridge方法,结合前缀语言模型、实例编译表面自动机和扭曲序列蒙特卡洛解码器,在多个基准上显著提升锚点满足率和覆盖率。
一次越狱,多种语言:学习语言无关的意图表示用于多语言越狱检测
发表机构 * School of Cyber Science and Engineering, Sichuan University(四川大学网络空间安全学院) ; School of Computer Science and Engineering, Nanyang Technological University(南洋理工大学计算机科学与工程学院) ; School of Computer Science and Engineering, University of Electronic Science and Technology of China(电子科技大学计算机科学与工程学院)
AI总结 针对多语言LLM安全漏洞,提出MLJailDe框架,通过多语言回译数据增强和相对距离约束,实现跨语言越狱检测,F1达98.5%。
干预还是不干预:通过概率模型混合指导推理时对齐
发表机构 * College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算机与数据科学学院)
AI总结 提出BlendIn框架,通过质量感知对齐和按可靠性加权混合模型知识,解决推理时对齐中指导有效性差异大的问题,在困难模型对上实现最高50%的性能提升。
使用多模态语言模型检测社交媒体上的AI生成内容
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Meta
AI总结 针对AI生成内容检测的泛化性差、单模态依赖和缺乏可解释性问题,提出基于多模态数据的紧凑视觉-语言模型,实现检测与解释,在公开基准和内部数据集上达到最优性能。
结构注意力税:检索格式如何劫持上下文学习而与内容无关
发表机构 * Xi’an Jiaotong-Liverpool University(西交利物浦大学)
AI总结 研究发现知识图谱三元组因其格式结构比自然语言吸引2-3倍注意力,压缩演示注意力达42%,并提出了分解注意力为语义与结构成分的框架及缓解策略。
PoQ-Judge:去中心化LLM推理中成本感知的证明质量的多架构评估框架
发表机构 * DGrid AI
AI总结 提出PoQ-Judge框架,训练专用裁判模型对查询-输出对进行无参考评分,研究三种架构,最佳模型在Pearson相关性上达到0.747,级联评估降低72.7%成本。
具有不完美二元反馈的 restless bandits: PCL-indexability 分析与计算
发表机构 * Universidad Carlos III de Madrid(马德里卡洛斯三世大学)
AI总结 针对具有二元隐状态和不完美二元反馈的 restless bandits,提出基于部分守恒律(PCL)的分析与计算框架,通过验证定理、确定性骨架和组合词方法建立可索引性并计算 Whittle 指数,实验表明 MP 指数策略优于基准策略。
基于主动推理的个性化癌症治疗信念空间控制
发表机构 * American Association for Cancer Research(美国癌症研究协会) ; AACR Project GENIE registry(AACR Project GENIE 注册中心) ; AACR Project GENIE Biopharma Collaborative(AACR Project GENIE 生物制药合作组织)
AI总结 提出用主动推理将癌症治疗建模为信念空间规划问题,在测量预算下统一目标导向控制与信息获取,实现患者分类与高效治疗。
P3D-Bench:用于参数化3D生成与结构推理的多模态大语言模型基准
发表机构 * Nanjing University(南京大学) ; Envision
AI总结 提出P3D-Bench基准,通过参数化3D程序评估多模态大语言模型在几何精度、语义对齐和装配一致性上的表现,涵盖文本到3D、图像到3D和装配3D三类任务。
建模复杂行为:视觉语言模型中的多人格组合与动态切换
发表机构 * Xi'an Jiaotong University(西安交通大学) ; Beihang University(北京航空航天大学)
AI总结 本研究在视觉语言模型中引入显式人格条件,建立包括单人格、多人格和人格切换的系统评估框架,发现人格提示可提升图像描述但损害精确推理任务,并观察到多特质组合与动态切换中的平衡与残留效应。
超越大语言模型强化学习中的统一令牌级信任区域
发表机构 * Tencent Hunyuan(腾讯混元)
AI总结 针对PPO风格信任区域在自回归生成中的位置无关问题,提出CPPO方法,通过位置加权阈值和累积前缀预算动态调整令牌级约束,提升训练稳定性和推理准确性。
K-Forcing:通过前推语言建模进行联合下一K词解码
发表机构 * DAMO Academy, Alibaba Group(阿里巴巴达摩院) ; Hupan Lab(湖畔实验室) ; Zhejiang University(浙江大学) ; The Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出K-Forcing范式,通过前推映射将自回归模型蒸馏为单次前向传播生成多个未来词,实现2.4-3.5倍加速,质量损失小。
SCAIL-2:通过端到端上下文条件统一受控角色动画
发表机构 * Z.ai ; Tsinghua University(清华大学)
AI总结 提出SCAIL-2框架,通过端到端上下文条件统一受控角色动画,绕过中间表示直接利用驱动视频,并合成MotionPair-60K数据集,采用上下文掩码和模式RoPE实现统一,结合Bias-Aware DPO减少误差,显著优于现有方法。
READER: 基于提取表示的鲁棒证据作者身份解码
发表机构 * National University of Singapore(新加坡国立大学) ; Xidian University(西安电子科技大学) ; Tsinghua University(清华大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 针对黑盒LLM来源识别问题,提出READER框架,通过冻结代理LLM读取隐藏作者证据,利用贝叶斯证据累积实现多查询归因,在Agent500数据集上显著优于基线方法。
空间选择性自训练用于无监督建筑变化检测
发表机构 * School of Information and Communication Engineering, University of Electronic Science and Technology of China(电子科技大学信息与通信工程学院) ; Chengdu Yaguang Electronic Co., Ltd.(成都亚光电子股份有限公司) ; Laboratory of Intelligent Collaborative Computing, University of Electronic Science and Technology of China(电子科技大学智能协同计算实验室) ; School of Civil Engineering, University of Khartoum(喀土穆大学土木工程学院) ; National Energy Research Center, Ministry of Higher Education and Scientific Research(高等教育部和科学研究部国家能源研究中心)
AI总结 提出SST-CD框架,利用空间选择性自训练和局部一致性准则,从无标签双时相遥感图像中学习建筑变化检测器,在三个数据集上超越现有无监督方法。