Does Head Pose Correction Improve Biometric Facial Recognition?
AI总结 本文研究了头部姿态校正和图像修复技术是否能提升生物特征人脸识别的准确性。作者采用一种模型无关的大规模法医评估方法,评估了三种图像修复方法对人脸识别的影响,发现直接应用这些技术反而会降低识别准确率。然而,通过选择性结合CFR-GAN和CodeFormer方法,能够在一定程度上提升识别效果,为改进实际场景下的人脸识别提供了新的思路。
AI总结 本文研究了头部姿态校正和图像修复技术是否能提升生物特征人脸识别的准确性。作者采用一种模型无关的大规模法医评估方法,评估了三种图像修复方法对人脸识别的影响,发现直接应用这些技术反而会降低识别准确率。然而,通过选择性结合CFR-GAN和CodeFormer方法,能够在一定程度上提升识别效果,为改进实际场景下的人脸识别提供了新的思路。
AI总结 在长尾分布场景下,文本到图像的流匹配变换器在尾部类别上表现出生成质量下降的问题。本文提出GRASP方法,通过条件空间的确定性划分和分组残差适配器,有效提升了尾部类别的生成质量,同时保持了原优化目标和采样器不变。实验表明,GRASP在多个数据集上显著提升了生成图像的多样性与尾部类别覆盖率,并在下游分类任务中优于现有方法。
Comments 16 pages, 6 figures, 6 tables
AI总结 统一多模态模型在图像生成与理解方面取得了显著进展,但任务间的冲突目标使得训练范式难以优化。为缓解冲突,现有方法多采用架构解耦策略,但可能导致模型失去交互生成能力。本文提出一种无需架构解耦的策略,通过分析模型的跨模态注意力行为,揭示解耦提升性能的本质是引导模型学习任务特定的交互模式,并提出注意力交互对齐(AIA)损失函数,有效优化跨模态注意力结构,提升生成与理解性能。
Comments Project page: https://zhengdian1.github.io/AIA-project/ Code: https://github.com/zhengdian1/AIA
AI总结 本文提出了一种名为 UnfoldLDM 的盲图像修复方法,旨在解决现有深度展开网络在未知退化建模和过平滑问题上的不足。该方法结合了深度展开网络与潜在扩散模型,通过多粒度退化感知模块估计未知退化信息,并设计了退化鲁棒的扩散模型和过平滑校正模块,以恢复图像的高频细节和纹理。实验表明,UnfoldLDM 在多种盲图像修复任务中表现优异,并可作为通用框架与现有方法兼容。
Comments 6 figures, 11 tables
AI总结 尽管近期研究表明大型语言模型在发散性思维任务中已能匹配人类的创造力,但视觉创造力领域仍缺乏系统研究。本研究通过对比视觉艺术家、非艺术家以及两种不同提示条件下的生成式AI模型(人类启发式与自主引导式)的图像生成结果,发现人类在视觉创造力上仍显著优于AI,且AI的创造力随着人类引导的增加而提升,但仍未达到非艺术家水平。研究还揭示了人类与AI在创造力评价上的判断模式存在明显差异,表明视觉创造力依赖于感知细节与情境敏感性,这些能力可能难以从语言模型直接迁移至视觉生成模型。
AI总结 SurvBench 是一个开源的预处理流程,旨在为多模态电子健康记录(EHR)的生存分析提供标准化的数据处理方法。该工具解决了当前深度学习生存模型在EHR数据上难以比较的问题,通过统一的预处理步骤,包括队列定义、时间离散化、缺失值处理和截断规则等。SurvBench 支持多个重症监护数据库和多种输入模态,提供了统一的配置接口和跨数据集验证支持,为未来多模态EHR生存分析研究提供了可靠的基准平台。
AI总结 本文介绍了MajinBook,一个开放的数字文献目录,旨在促进对影子图书馆(如Library Genesis和Z-Library)在计算社会科学和文化分析中的应用。通过将这些众包档案的元数据与Goodreads的结构化书目数据进行关联,构建了一个包含539,000多本英文书籍的高精度语料库,并附有首次出版日期、类型和受欢迎程度等信息。该研究采用原生数字EPUB文件以确保机器可读性,同时解决了传统语料库的偏差问题,并提供了法语、德语和西班牙语的辅助数据集。
Comments 9 pages, 5 figures, 1 table
AI总结 该研究旨在解决代码混用(Code-switching)语音翻译中的细粒度语义建模难题,提出了一种结合专家混合(MoE)结构的语音投影方法,通过语言专家组对不同语言的语义空间进行精细化建模。研究引入了语言特定损失和组内负载均衡损失,以提升模型效率,并采用多阶段训练策略,结合现有自动语音识别和单语翻译数据,增强对齐效果和翻译性能。实验表明,该方法在多个数据集上显著优于现有模型,BLEU和COMET指标均有明显提升。
Comments Accepted to IJCAI 2026 Main Track
AI总结 本文研究了无需预设训练周期的自适应优化方法,提出了一种适用于Schedule-Free SGD和Adam的Polyak步长选择策略,该方法能够在每一步迭代中仅基于当前损失、梯度和迭代点自动计算学习率,无需手动调参。通过引入一个理想情况下的变体和一个无需理想值的鲁棒变体,作者证明了其在凸且满足利普希茨条件的目标函数上的收敛速率。实验表明,该方法在语言模型预训练和知识蒸馏任务中表现优异,且对超参数选择更加鲁棒。
AI总结 本文提出了一种名为CoDeC的方法,用于检测和量化大语言模型训练数据中的污染问题。该方法通过衡量上下文学习对模型性能的影响,区分模型在训练过程中记忆的数据与训练分布之外的数据。实验表明,CoDeC能够生成可解释的污染评分,有效区分已见和未见数据集,并揭示了未公开训练语料的开源模型中存在显著的记忆现象。该方法简单、自动化,且适用于不同模型和数据集,便于集成到基准评估中。
AI总结 OpsAgent 是一个用于微服务系统故障管理的轻量级、自我进化的多智能体系统。该系统通过无训练数据处理器将异构的可观测性数据转化为结构化文本描述,并结合多智能体协作框架实现透明、可审计的诊断推理。为支持持续能力提升,OpsAgent 引入了内部模型更新与外部经验积累相结合的双重自进化机制,实验表明其在性能、可解释性、成本效率和自进化能力方面均表现优异,具备实际部署和长期运行的可行性。
AI总结 本文研究了基于推理的语言模型在处理社会偏见时的思维行为,发现其内部推理过程可能加剧社会刻板印象,导致偏见结果。研究揭示了两种导致偏见聚集的失败模式:刻板印象重复和无关信息注入。基于这些发现,作者提出了一种轻量级的提示方法,引导模型自我审查推理过程,实验表明该方法在多个基准上有效降低了偏见,同时保持或提升了准确性。
Comments Due to issues found with the annotations in Section 4.3, we have decided to withdraw this preprint
AI总结 本文研究了如何从带有噪声的人类成对比较数据中高效进行贝叶斯推断,以评估生成模型的质量。作者提出了一种名为 BBQ 的贝叶斯 Bradley-Terry 模型变体,该方法显式建模评分者质量,过滤不可靠评分者,并通过期望最大化算法保证似然函数的单调收敛。实验表明,BBQ 能在噪声或众包评分环境下提供更高效、鲁棒且可解释的模型排序与不确定性估计。
AI总结 UGround 提出了一种统一的视觉 grounding 框架,通过在展开的 Transformer 层中动态选择中间层作为“掩码作为提示”,克服了传统方法中固定使用最后一层隐藏状态的问题。该方法引入了策略驱动的掩码机制,包含随机跳过连接和掩码作为提示两个核心组件,实现了对视觉模型(如 SAM)的动态引导与空间线索的显式传递。UGround 在统一框架下覆盖了多种视觉 grounding 任务,包括属性层面的传统指代分割和新提出的推理分割等,显著提升了模型的灵活性和适用性。
Comments This work has been accepted to ICML 2026, please refer to https://github.com/rui-qian/UGround
AI总结 该论文研究了扩散语言模型在离散与连续空间中的表现差异,指出尽管连续扩散模型在理论上具有更强的表达能力,但在实际应用中往往不如离散模型。为此,作者提出了协同进化连续离散扩散(CCDD)方法,通过在连续表示空间和离散词元空间上定义联合扩散过程,结合两者优势,既保留了连续空间的语义丰富性,又借助离散词元提升训练和采样效果。实验表明,CCDD在多项现实任务的语言建模中表现出色。
Comments 29 pages. Accepted to ICML 2026
AI总结 本文提出了一种受AdaBoost启发的神经网络正则化方法PENEX,通过改进多分类指数损失函数,使其适用于一阶优化方法,从而更有效地用于神经网络训练。PENEX通过增大数据点的边距来提升模型的泛化能力,并在低数据量场景下表现出优于传统正则化方法的性能。研究展示了指数损失在AdaBoost之外的广泛应用潜力。
AI总结 本文提出了一种名为DeepFHT的生存分析框架,将深度神经网络与随机过程理论中的首次穿越时间(FHT)分布相结合,将事件发生时间建模为潜在扩散过程首次到达吸收边界的时间。该方法通过神经网络将输入变量映射到具有物理意义的参数,如初始条件、漂移和扩散系数,从而在无需假设比例风险的前提下,生成闭式生存和风险函数。实验表明,DeepFHT在预测性能上与现有先进方法相当,同时保持了物理可解释的参数化特性,有助于揭示输入特征与风险之间的关系。
Comments 12 pages, 5 figures
AI总结 本文对比了链式推理(Chain of Thought, CoT)与隐式推理(Latent Thought)两种大语言模型的推理方法。CoT通过显式生成中间token进行推理,而隐式推理则在连续的潜在空间中直接进行计算,支持超越离散语言表示的运算。研究发现,隐式推理在并行计算效率上更具优势,而CoT则在随机解码下支持近似计数和采样,为不同任务选择合适的推理范式提供了理论依据。
Comments Camera-ready version for ICML 2026
AI总结 本文提出了一种无需图像描述的高保真图像修复方法LucidFlux,通过适配大规模扩散变换器Flux.1实现真实感图像恢复。该方法引入了一个轻量的双分支条件器,分别注入退化输入和轻度修复代理的信号以锚定几何结构并抑制伪影,并设计了时序和层自适应的调制调度策略,实现从粗到细的上下文感知更新。此外,通过SigLIP特征实现无需描述的语义对齐,并结合可扩展的数据筛选流程,LucidFlux在多个基准测试中优于现有开源和商业方法,验证了其在复杂场景下鲁棒且无需文本提示的图像修复能力。
Comments Project Page: https://w2genai-lab.github.io/LucidFlux
AI总结 本文提出了一种名为MoTIF的可解释视频分类方法,通过引入基于时序概念激活的Transformer架构,解决了在视频中提取和建模概念的挑战。该方法利用每个概念的时序自注意力机制,捕捉概念随时间的变化规律及其对分类结果的贡献,并通过一个基于视觉-语言模型的概念发现模块,从训练视频中自动提取与物体和动作相关的文本概念,无需人工标注。实验表明,该方法在多个视频基准上优于全局概念瓶颈模型,并在可解释性框架下保持了良好的性能。
AI总结 本文提出了一种基于专家混合框架的新型方法,用于增强移动说话人声源的视野感知双耳渲染。该方法通过隐式定位在线融合多个双耳滤波器,实现了对连续运动声源的实时追踪与增强,能够在保持自然双耳线索的同时,突出或抑制特定方向的声音。与传统依赖到达方向估计或基于Ambisonics域的方法不同,该信号依赖框架具有阵列结构无关性,适用于下一代消费音频设备中的空间音频捕获与个性化播放。
Comments 5 pages, 3 figures
AI总结 该研究旨在利用人工智能算法标准化截肢者假肢套筒的设计过程,以减少对假肢师经验的依赖。研究基于118名患者的三维残肢扫描和对应的假肢套筒模型,采用形态模型和主成分分析进行数据预处理,并开发了三种算法预测套筒形状或假肢师的调整方案。结果表明,预测调整方案的算法在精度上优于直接预测最终形状,其中随机森林模型表现最佳,表面到表面距离中位数仅为1.24毫米。
AI总结 本文研究叙事中“意外性”与“连贯性”之间的平衡问题,提出一种基于信息论的理论框架,并以推理小说为案例进行分析。研究发现,对于单一读者模型,这两种特性存在权衡关系,但在区分“揭示前”和“揭示后”两种阅读模式后,二者可以共存。文章进一步提出“公平性”作为叙事质量的重要标准,并利用大语言模型进行实验验证,结果表明实现公平性对模型是一个挑战,且意外性与连贯性在不同故事中并不正相关。
Comments 47 pages, 11 figures, 13 tables
AI总结 本文研究了逻辑上下文滑块老虎机问题,其中智能体在每一轮从指数级大的候选滑块集合中选择一个包含 $N$ 个项目的滑块,并仅观测到由逻辑模型决定的单个二元奖励。为在 $T$ 轮中最大化累积奖励并保持低计算开销,作者提出了两种高效算法 Slate-GLM-OFU 和 Slate-GLM-TS,它们通过局部规划实现每轮 $N^{O(1)}$ 的时间复杂度,并通过全局学习保证低悔恨。理论分析和实验表明,这些算法在多种合成场景中表现优异,并成功应用于语言模型的上下文示例选择任务,取得了有竞争力的测试准确率。
Comments Accepted to UAI 2025
AI总结 本文研究了在行为预测(Performative Prediction)场景中,机构通过部署与用户行为响应模型不一致的模型,从而实现策略性欺骗部署的问题。提出了一种新的框架——解耦行为预测(DPP),用于建模机构决策模型与用户响应模型之间的不匹配,并证明该框架可以带来更低的风险。研究还引入了“欺骗成本”作为衡量用户受欺骗程度的指标,并分析了机构在声誉或用户流失压力下引入该成本进行优化的局限性,强调模型披露不仅是伦理问题,更是关键技术设计决策,亟需相关监管。
Comments Accepted to FAccT 2026
AI总结 本文研究如何从真实时间序列数据中生成具有相同观测和干预分布的仿真数据,旨在构建概率因果数字孪生模型。为此,作者提出了一种对抗因果调优(ACT)方法,结合生成对抗网络和自动机器学习的思想,搜索最优的因果模型和判别器,以提升生成数据与真实数据分布的一致性,并通过置换检验控制模型复杂度。实验表明,ACT在多个数据集上表现出优越的拟合能力和泛化性能,为现实时间序列的生成提供了新的有效方法。
Comments 22 pages, 3 figures
AI总结 本文提出了一种两阶段的课程学习方法,旨在提升强化学习中智能体行为的多样性。该方法首先引入基于样条的轨迹先验作为归纳偏置,生成多样且高回报的行为策略,随后将其蒸馏为反应式的分步策略。实验表明,该课程学习框架在保持任务性能的同时,显著提升了所学技能的多样性。
Comments Accepted into the Inductive Biases in Reinforcement Learning Workshop at RLC 2025
AI总结 该论文提出了一种名为Rotary Masked Autoencoder(RoMAE)的新型自编码器,旨在解决传统Transformer在处理不规则时间序列时需要特殊架构设计的问题。RoMAE结合了旋转位置嵌入(RoPE)方法,能够在无需特定时间序列结构的情况下,对多维连续位置信息进行插值和表征学习。实验表明,RoMAE在不规则时间序列、图像和音频等多种模态任务中均表现出色,尤其在复杂数据集上超越了专门的时间序列模型,同时保持了MAE在其他模态中的良好性能。
Comments NeurIPS 2025 Final Camera Ready
AI总结 实现一种能够适应多种地形的人形机器人行走策略是当前面临的关键挑战。本文提出 DreamPolicy,一种结合离线数据与扩散世界模型的统一策略框架,使单一策略能够掌握已知和未知地形的行走技能。该方法通过地形感知的世界模型生成物理合理的未来轨迹,作为条件策略的动态目标,从而避免手动设计奖励函数。实验表明,DreamPolicy 在未知和复合地形上的表现优于现有最佳方法,为通用人形机器人控制提供了一种可扩展的数据驱动范式。
AI总结 本文提出了一种名为FractalGCL的图对比学习框架,旨在解决传统图增强方法在全局结构一致性控制上的不足。该方法基于重归一化构建增强图,并引入一种考虑分形维度的对比损失函数,以提升正样本的一致性并优化负样本的排斥效果。为降低计算开销,作者还设计了一种高斯近似方法,显著提升了运行效率。实验表明,FractalGCL在多个基准数据集和现实交通任务中均表现出色,具有良好的预训练和迁移能力。
Comments 32 pages, 7 figures