Grounded Satirical Generation with RAG
AI总结 本文研究了基于现实背景的讽刺生成问题,提出了一种结合检索增强生成(RAG)的方法,用于在芬兰语环境下生成基于当前新闻的讽刺词典定义。研究还构建了一个新的任务特定评估框架,并通过多人标注分析了不同实验条件下的生成效果,发现生成内容更偏向政治性而非幽默性。实验表明,RAG和基于主题的词选择提升了政治相关性,但对幽默生成效果不明显,同时大型语言模型在政治相关性判断上与人类一致,但在幽默判断上表现较差。
AI总结 本文研究了基于现实背景的讽刺生成问题,提出了一种结合检索增强生成(RAG)的方法,用于在芬兰语环境下生成基于当前新闻的讽刺词典定义。研究还构建了一个新的任务特定评估框架,并通过多人标注分析了不同实验条件下的生成效果,发现生成内容更偏向政治性而非幽默性。实验表明,RAG和基于主题的词选择提升了政治相关性,但对幽默生成效果不明显,同时大型语言模型在政治相关性判断上与人类一致,但在幽默判断上表现较差。
AI总结 本文提出了一种通用图灵测试(GTT),作为一种通过不可区分性来比较任意智能体能力的正式框架。该框架定义了智能体之间的相对智能关系,并研究了其结构特性及变体形式,同时在多个现代模型上进行了实证评估,结果显示出与现有排名一致的分层结构。该研究为智能的评估和潜在训练目标提供了一个与具体数据集或基准无关的统一视角。
AI总结 本文研究了医学视觉问答(VQA)中自验证机制的可靠性边界,指出当前常用的通过重新调用相同视觉语言模型(VLM)进行自验证的做法存在根本性不可靠的问题。作者提出了一种诊断框架,通过分解验证器的行为为判别能力和一致性偏差,揭示了验证器与生成器之间的能力耦合会导致“验证幻觉”现象,即在错误答案被错误接受的情况下,验证器错误率和一致性偏差同时升高的状态。实验表明,验证机制无法提供独立的安全保障,且在多轮交互中错误答案可能被错误验证所固化,凸显出自验证在实际临床应用中可能存在的严重风险。
Comments 31 pages, 12 figures
AI总结 本文研究了用于患者管理预警系统的条件异常检测方法,旨在从数据的子集属性中识别异常模式,且异常的判定依赖于其他属性的取值。研究聚焦于基于实例的条件异常检测方法,通过距离度量来识别数据集中对异常检测最关键的例子,并探讨了多种度量方式与度量学习方法以优化检测性能。实验结果表明,所提出的方法在检测社区获得性肺炎患者的异常入院决策和确认肝素诱导血小板减少症的HPF4检测异常订单等实际问题中具有显著优势。
Comments Published at Workshop on Machine Learning in Health Care Applications ICML-2008 - MLHealth
AI总结 随着跨语言交流的日益频繁,富含视觉内容的PDF等文档中的语言障碍仍然是一个实际瓶颈。现有文档翻译方法在语言处理与版式保留之间面临矛盾,BabelDOC通过引入中间表示框架,将视觉布局信息与语义内容解耦,实现了术语提取、跨页上下文处理等文档级翻译操作,并通过自适应排版引擎将翻译内容重新锚定到原始布局中。实验表明,BabelDOC在版式保真度、视觉美观性和术语一致性方面优于现有方法,同时保持了较高的翻译精度。
Comments ACL 2026 System Demonstration paper. 2 figures
AI总结 光学乐谱识别(OMR)任务面临缺乏大规模真实扫描数据集的瓶颈,现有方法多依赖少量样本迁移或过于简化的合成训练。本文提出Transcoda系统,通过改进的合成数据生成、**kern编码的规范化以及基于语法规则的解码方法,有效解决了乐谱文本编码的非唯一性问题。该方法在单块GPU上仅用6小时即可训练出一个5900万参数的紧凑模型,在合成乐谱数据集和历史波兰乐谱数据集上均取得优于现有方法的显著性能提升。
Comments 13 pages, 7 figures
AI总结 本文提出了一种用于评估AI渗透测试代理在真实世界场景中表现的实用评估协议,旨在弥补现有基准在复杂性和战略决策方面的不足。该方法通过验证漏洞发现、结合基于大语言模型的语义匹配和双图分辨率评分等技术,能够在多攻击面和漏洞类别组成的复杂目标中进行更真实的评估。该协议不仅提升了AI渗透测试代理的比较分析的实用性,还提供了可复现的专家标注数据集和代码,推动了该领域的进一步研究。
AI总结 本文提出MMVIAD,首个面向工业异常检测的多视角连续视频数据集,涵盖多种物体类别、环境和异常类型,并支持多项任务评估。为提升模型在细粒度缺陷识别和时序定位上的表现,研究设计了两阶段的后训练流程,显著提升了模型性能,优于现有主流模型。该工作为工业视频理解与异常检测提供了新的基准和方法。
AI总结 该研究提出了一种名为SLIM的可插拔框架,用于实现可解释且面向属性的基于大语言模型的分子编辑。SLIM通过稀疏自编码器将模型的隐藏状态分解为与分子属性对齐的稀疏特征,并利用可学习的重要性门控机制,从而在不修改模型参数的情况下,精准激活与目标属性相关的维度,显著提升了编辑成功率。实验表明,SLIM在多个分子属性和模型架构上均优于现有方法,最高提升了42.4个百分点。
AI总结 随着大语言模型在检索增强生成和智能代理系统中的广泛应用,理解干扰信息对长上下文推理性能的影响变得至关重要。本文系统研究了固定长度上下文中误导性文档比例与模型性能之间的非线性关系,发现误导信息比例增加初期性能急剧下降,之后影响趋于平缓,这一现象被形象地称为“第一滴墨水”效应。理论与实验分析表明,少量误导信息即可显著捕获模型注意力,而后续增加的干扰影响逐渐减弱,强调了提升检索阶段精度对改善模型性能的重要性。
AI总结 NoRIN 是一种针对时间序列预测任务的非线性可逆归一化方法,旨在解决现有方法如 RevIN 在分布重塑能力上的不足。它基于 Johnson $S_U$ 分布的反双曲正弦变换,引入两个形状参数以灵活控制数据的尾部特征和偏度。通过将形状参数的优化与主网络训练解耦,NoRIN 能够更有效地适应不同模型结构的需求,实验表明不同主干网络需要不同的归一化参数才能发挥最佳性能。
Comments 8 pages, 2 figures
AI总结 该论文提出了一种名为SensorFault-Bench的基准测试框架,用于评估预测模型在传感器故障情况下的鲁棒性。研究通过引入标准化的故障严重性模型和多个真实数据集,系统评估了不同预测架构和鲁棒性改进方法在多种故障场景下的表现,揭示了传统基于干净数据误差的模型排名可能与实际故障场景下的性能存在显著差异。该框架还提供了开源代码和数据接口,支持后续研究在统一协议下进行扩展和比较。
AI总结 本文提出了一种统一的噪声引导框架UniSteer,用于高效的人类引导型视觉-语言-动作(VLA)模型适应。该方法通过近似动作到噪声的逆变换,将人类的纠正动作转化为对噪声变量的监督信号,从而在保持预训练VLA模型不变的前提下,仅更新轻量级策略网络,实现高效的策略优化。实验表明,UniSteer在多个现实机器人操作任务中表现出优越的适应效率,显著提升了任务成功率。
AI总结 本文提出了一种名为 MaD Physics 的新基准,用于评估智能体在物理环境中受测量质量和数量约束下的信息获取与科学推理能力。该基准包含三个基于不同物理定律的环境,并引入了修改后的物理定律以减少先验知识的干扰。智能体在有限的测量预算下进行实验,随后需推断出物理规律并进行未来状态预测,从而评估其模型推理与约束下的规划能力。研究还展示了该基准在评估多模态处理和上下文学习等能力方面的应用,并对多个 Gemini 模型进行了测试,指出了其在结构化探索和数据收集方面的不足。
Comments 64 pages, 10 figures. Project page: https://mad-physics.github.io/
AI总结 本文提出CLEF,一种基于临床语义的长上下文EEG基础模型,用于解决临床EEG解读中需要整合完整会话信号与临床背景的问题。CLEF通过三维多窗谱图分词和对比学习目标,将EEG会话与神经科报告及结构化电子健康记录对齐,实现了在大规模数据上的高效建模。实验表明,CLEF在包含234项任务的基准测试中显著优于现有模型,展示了其在临床EEG表征学习中的潜力。
AI总结 本文研究了非马尔可夫强化学习中的策略梯度方法,针对观测和奖励依赖于完整交互历史的问题,提出了一种新的策略框架。该方法通过递归更新内部状态来压缩历史信息,并联合优化状态动态与控制策略以最大化累积奖励。作者建立了适用于非马尔可夫环境的策略梯度定理,并提出了ASMPG算法,实验表明其在多个非马尔可夫任务中优于基于预测目标的状态表示学习方法。
Comments 39 pages, 5 figures, 1 table
AI总结 本文研究了极限语言生成任务,提出了一种新的“错误有界生成”概念,关注生成算法在学习过程中累积错误的最小化,而非传统上关注最后一次错误的时间。通过形式化归约到“从正确示范中学习”框架,作者给出了计算错误界的一般方法,并针对有限和无限语言流分别提出了算法与理论分析,揭示了错误界与收敛性之间的根本权衡关系。此外,该框架还可扩展至应对噪声对手,保证错误界随对手的次优性进行扩展。
AI总结 PhyGround 是一个用于评估生成式世界模型物理推理能力的新基准,旨在解决现有视频生成模型在物理规律遵循性方面的评估难题。该基准包含250个精心设计的提示,每个提示附带预期的物理结果,并涵盖13类物理定律的分类体系。通过大规模、质量控制的人类标注实验和一个专门的物理推理视觉语言模型 PhyJudge-9B,PhyGround 能够对生成视频的物理合理性进行细粒度、可复现的评估,显著提升了评估的准确性与可靠性。
Comments Preprint. 56 pages, 39 figures, 40 tables. Project page: https://phyground.github.io/
AI总结 本文研究了在LLM作为裁判的场景下,推理能力带来的收益与成本之间的平衡问题。研究发现,推理在需要结构化验证的任务中显著提升判断准确性,但在简单任务中可能带来有限甚至负面效果,并伴随更高的计算成本。为此,作者提出了RACER方法,在固定预算下通过分布鲁棒优化动态选择是否启用推理,有效应对分布偏移,并在实验中展现出优越的准确率与成本平衡能力。
Comments Accepted at ICML 2026
AI总结 本研究旨在提升校园心理健康水平,通过开发AI驱动的工具解决高校在学生满意度监测和心理风险检测方面的不足。研究提出了预防性工具TigerGPT和AURA,前者通过个性化聊天机器人提升调查参与度,后者利用强化学习优化对话质量;在干预方面,引入基于叙事故事的心理筛查方法,并开发了符合临床指南的PsychoGPT模型,结合多模型推理技术提高评估的准确性与可解释性。整体框架整合了这些工具,实现了从调研到心理干预的无缝衔接。
Comments PhD Dissertation, University of Missouri, May 2026
AI总结 本文研究了Muon优化器在大规模语言模型预训练中的权重衰减敏感性问题,发现其谱范数在训练过程中会上升,主要由行幅值因子驱动。为此,作者提出了一种改进方法Muown,将行幅值向量作为显式优化变量,在$\ell_\infty$几何下更新,其余部分仍使用Muon优化。实验表明,Muown在多个模型规模上均能提升困惑度,降低对权重衰减的敏感性,并有效抑制谱范数漂移。
AI总结 该研究探讨了从顶级职业足球联赛到大学足球比赛的领域迁移中,机器学习模型可解释性是否保持稳定。通过在欧洲五大联赛数据上训练随机森林和多层感知机模型,并应用于清华大学足球队数据,发现顶级联赛中的表现决定因素具有稳定的层次结构,而大学联赛中关键指标的排序发生显著变化,解释结果的稳定性下降。研究指出,模型的可解释性在不同领域间存在显著差异,这一现象可能反映目标领域的结构模糊性,而非方法本身的局限。
Comments 19 pages, 6 figures
AI总结 大型语言模型(LLMs)因内存占用大、推理成本高而难以部署。本文提出一种轻量级的后训练旋转校准方法ConQuR,通过学习正交旋转将归一化激活对齐到内切超立方体的顶点,使激活能量在各维度上更均匀分布,从而提升低比特激活量化效果。该方法通过正交Procrustes问题实现高效的闭式更新,避免了对正交群的梯度优化,并引入在线校准流程以适应量化后的激活分布,无需存储大量激活数据。实验表明,该方法在多个基准测试中表现优异,同时避免了昂贵的端到端训练和大规模离线存储需求。
AI总结 知识图谱问答(KGQA)旨在通过推理知识图谱来回答用户问题。当前方法多依赖检索增强生成范式,但训练过程中需要高质量的中间监督信号(如相关路径或子图),获取成本较高。本文提出PathISE框架,通过一个轻量的基于Transformer的估计器从答案标签中学习高质量的路径级监督,并将其蒸馏到路径生成模型中,从而生成可用于归纳推理的紧凑证据。实验表明,PathISE在多个基准上表现优异,并能提供可复用的监督信号以增强现有模型。
AI总结 扩散模型在生成任务中表现出色,但在训练过程中存在效率低下的问题,这主要归因于一种称为“表示退化”的优化瓶颈。随着噪声水平的增加,模型输出会出现结构扭曲,影响训练稳定性与生成质量。本文分析指出,这一问题源于目标可恢复性不匹配,并与神经切线核谱减弱和有效低秩行为有关。为此,作者提出了一个即插即用的框架Elucidated Representation Diffusion(ERD),通过动态分配优化资源以稳定表示学习,从而加速收敛并提升多种扩散模型的生成性能。
AI总结 本文提出了一种基于虚拟遥感数据和度量级前馈3D重建的快速森林燃料载荷估计方法,旨在解决传统方法成本高、耗时长的问题。该方法利用Google Earth Studio生成低空轨道图像和相机位姿,结合改进的Pi-Long模型进行密集3D重建,并通过度量恢复模块解决单目重建的尺度模糊问题,最终生成鸟瞰图高度和密度图,进而实现树种分类、叶面积指数计算和燃料载荷估计。实验表明,该方法在保证几何一致性的同时,提供了高效、低成本的森林生物量估算方案。
Comments Accepted for publication at IEEE IGARSS 2026
AI总结 本文提出了一种名为MASS-DPO的多负样本主动选择方法,用于改进直接策略优化(DPO)中的多负偏好优化。该方法基于Plackett-Luce模型,通过引入一个特定的Fisher信息目标,从每个提示中选择信息量大且冗余少的负样本子集,从而在保持整体信息完整性的前提下减少计算开销。实验表明,MASS-DPO在多个基准任务中表现出更高的准确率和更好的优化动态,同时使用更少的负样本即可实现更强的模型对齐效果。
AI总结 TrajPrism 是一个面向语言引导的城市轨迹理解的多任务基准,旨在统一轨迹生成、语义轨迹检索和轨迹描述等任务,并评估轨迹的准确性、检索质量与语言关联性。该基准通过将真实城市轨迹与经过筛选的语言注释相结合,构建了涵盖波尔图、旧金山和北京等城市的30万条轨迹,生成了210万条任务实例。研究还提出了针对各任务的概念性模型,验证了仅依赖几何信息的轨迹方法在涉及语言交互的任务中存在明显不足。
Comments This paper is under review
AI总结 该研究提出了一种名为RLRT的新方法,通过逆向利用自蒸馏中的教师信号,引导学生模型在成功路径上进行有价值的探索。与传统自蒸馏在成功时抑制学生自主推理不同,RLRT强调学生自身成功路径中的推理过程,并将其作为强化学习的奖励信号。实验表明,RLRT在多种Qwen3模型上显著优于现有自蒸馏和探索基线,为RLVR提供了新的设计原则。
AI总结 近年来,开源权重的语言模型质量显著提升,但其权重的自由修改可能带来安全风险。为此,本文提出了一种新型防御方法DLR-Lock,通过将预训练模型中的多层感知机替换为参数量相当的深度低秩残差网络(DLR-Net),利用反向传播过程中激活内存随深度线性增长的特性,增加模型微调时的优化难度。实验表明,该方法在不影响模型原有性能的前提下,有效抵御了具有完整防御策略知识的自适应攻击者。