Markerless Motion Capture for Biomechanical Whole-Body Kinematic Estimation in Infants
无标记运动捕捉用于婴儿生物力学全身运动学估计
AI总结 本研究评估了三种先进的姿态估计框架在婴儿运动学重建中的性能,展示了无标记运动捕捉在婴儿生物力学分析中的潜力和局限性。
Comments Accepted to EMBC 2026
无标记运动捕捉用于婴儿生物力学全身运动学估计
AI总结 本研究评估了三种先进的姿态估计框架在婴儿运动学重建中的性能,展示了无标记运动捕捉在婴儿生物力学分析中的潜力和局限性。
Comments Accepted to EMBC 2026
可微优化层用于深度学习中的保证公平性
AI总结 本文提出了一种称为'公平性层'的可微优化层,该层可确保在神经网络中集成时满足所选的输出平等性概念,并介绍了一个在线对偶推理算法,为流式预测提供可证明的公平性保证,即使使用任意小的批量大小。
Comments To be published in International Conference on Machine Learning (ICML), 2026
F2IND-IT! -- 多模态模糊假新闻检测:结合图像和文本
AI总结 本文提出了一种多模态模糊框架,结合图像和文本进行印度媒体虚假新闻检测,通过ResNet-50提取图像特征,DistilBERT获取文本语义嵌入,ANFIS生成模糊可靠性评分,并通过轻量级注意力融合模块进行分类,实验结果显示在准确率、精确率、召回率和F1分数上均优于现有方法。
Comments 10 pages, 1 figure
无法回头的点:语言模型推理中欺骗承诺的反事实定位
AI总结 本文研究语言模型在推理过程中何时开始承诺欺骗,通过反事实定位方法,分析不同环境中的欺骗产生机制,并发现注意力转移特征在跨环境泛化中的有效性,同时提出通过压缩注意力头集来抑制欺骗承诺。
Comments 41 pages, 25 figures
并行递归LSTM
AI总结 本文提出并行递归LSTM(PR-LSTM),一种层次递归架构,通过递归非线性状态组合替代左到右递归,以减少长上下文设置中的计算深度,同时保持非线性门控状态表示,并在形式语言基准测试中实现了更强的序列长度泛化能力。
Comments 13 pages, 5 figures. Code available at https://github.com/tristangaudreault/pr-lstm
具有科学逻辑性的方法论:LLM推理的实践:物理学
AI总结 本文提出了一种增强科学逻辑性的方法论,旨在提升LLM在科学推理中的逻辑正确性与任务表现,通过物理学中的多样逻辑结构和形式化进行实践验证。
Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026)
警察执法视频中的视觉时间线:用于训练和分析的开放BWC操作上下文和活动编目
AI总结 本文提出了一种处理体感摄像头视频的方法,生成时间对齐的固定长度10秒窗口序列,用于训练和分析,通过隐私保护协议进行处理和标记,以提高事件审查和培训流程的效率。
Comments 13 pages, 10 figures, 9 tables
HEED:基于密度加权残差对齐的混合视觉-语言模型蒸馏
AI总结 本文提出HEED方法,通过密度加权残差对齐改进混合视觉-语言模型蒸馏,提升在OCR和文档任务中的性能,同时在不同教师模型和混合架构上实现高效推理。
机制学习:面向科学预测的原型锚定机制推断
AI总结 本文提出机制学习框架,通过估计当前活跃的局部机制来预测未来状态,其核心方法是将局部时空片段压缩为机制描述,并利用原型锚定来构建数据驱动的机制空间,从而在科学预测中实现鲁棒性和稳定性。
ACIL: 自动链式思维用于上下文学习
AI总结 本文提出ACIL框架,通过自动构建包含推理步骤的演示来提升上下文学习在多步推理任务中的性能。
医学潜在扩散中的可学习差距
AI总结 本文研究了医学图像中潜在扩散模型在处理类别不平衡问题时的可学习差距,指出尽管预训练的自动编码器能有效编码判别特征,但其潜在表示的结构性使分类器难以学习,通过开发噪声条件潜在分类器和图像空间蒸馏技术,提高了效率并改善了潜在空间质量。
通过目标KL正则化驯服音频VAE
AI总结 本文提出通过压缩率调节和目标KL正则化训练音频VAE,以解决在音频生成任务中VAE正则化带来的过正则化与欠正则化之间的平衡问题,并构建了音频VAE的率失真曲线。
Comments Accepted at ICASSP 2026 (Barcelona, Spain, 3-8 May 2026). 5 pages, 1 figure, 3 tables
尺度决定语言模型是否为预测组织表示几何
AI总结 研究探讨了语言模型中表示几何是否为预测组织,通过Subspace PGA指标发现,模型规模影响表示几何的组织程度,小模型在训练后期逐渐失去这种组织,而大模型则保持稳定。
LLMs能否像消费者一样思考?通过ConsumerSimBench进行大众级反应重建的基准测试
AI总结 本文提出ConsumerSimBench基准,通过1553个真实中国社交媒体话题和23122个原子化、规则审核过的标准,评估LLM在模拟消费者反应方面的能力,揭示了前沿模型在预测高语境中文消费者讨论中实际关心内容方面的不足。
如何指导你的机器人:密集语言标注助力机器人策略学习
AI总结 本研究通过密集语言标注提升机器人策略学习效率,提出DeMiAn方法,利用视觉语言模型生成多方面标注,提升策略和世界模型性能,无需新增演示数据。
RAGA:用于自主知识图谱构建和检索增强生成的阅读与图构建代理
AI总结 本文提出RAGA框架,通过结合阅读、搜索、验证和构建的认知约束,提升知识图谱构建与检索增强生成的效率和准确性,实现了知识图谱的全生命周期管理。
AnchorDiff: 基于拓扑结构的掩码扩散模型与基于置信度的重写方法用于放射学报告生成
AI总结 本文提出AnchorDiff,一种首个结合临床锚点的掩码扩散框架,用于生成放射学报告。该方法通过拓扑感知训练策略和推理时的重写策略,有效缓解了固定顺序自回归解码的局限性,实现了最先进的性能。
EPIC-Bench: 一种以感知为中心的细粒度具身视觉 grounding 的基准
AI总结 本文提出 EPIC-Bench,一种以感知为中心的细粒度具身视觉 grounding 基准,旨在系统评估 VLMs 在现实世界具身环境中的视觉感知能力。该基准包含 6.6k 个精心标注的元组(图像,文本,掩码),涵盖 23 个细粒度任务,涉及具身交互管道的三个核心阶段:目标定位、导航和操作。评估结果显示,尽管先进推理模型表现出潜力,但当前 VLMs 在复杂视觉-文本对齐方面普遍存在困难,特别是在多目标计数、部分-整体关系理解和 affordance 区域检测方面存在瓶颈。
迈向人类水平的书籍写作能力
AI总结 本文提出了一种用于大规模创意写作的 dataset 构建和训练框架,通过将监督微调重新定义为提示到书籍生成任务,以人类创作的虚构作品为基础,旨在提升生成文本的文学性。
Comments 17 pages, 3 figures
学习多时间尺度抽象以进行分层组合规划
AI总结 本文提出了一种基于模型的分层框架,用于解决序列随机组合决策问题,通过多时间尺度目标结构化潜在动态,实现高效的前瞻规划,并联合学习子目标条件预算策略以支持上下文感知的资源分配。
Comments 34 pages, 8 figures, 23 tables
PersonaArena: 用于评估和提升大语言模型层面角色扮演的动态模拟
AI总结 本文提出PersonaArena框架,通过动态模拟评估和提升大语言模型在角色扮演层面的能力,利用用户生成的社会内容构建细致的个性库,并在模拟社交环境中进行多轮上下文丰富的交互,通过多代理辩论裁判实现全面公正的评估。
Comments ACL 2026 Findings
仅热成像的人群计数与部署时隐私保护
AI总结 本文提出了一种仅使用热成像数据的人群计数框架,通过消除RGB数据依赖,减少公共监控中隐私暴露风险,并利用深度到RGB扩散模型来缓解热成像的模糊性,提升计数准确性。
代理AI翻译:一种用于翻译作为沟通设计的代理翻译原型
AI总结 本文提出了一种代理翻译原型,通过将翻译研究的金属语言转化为生成AI的指令代码,重新定义翻译作为沟通设计的过程,而非文本转换。
Comments 14 pages. Conceptual and architectural paper; empirical validation in future work. Code: https://github.com/chuckmy/agentic-translator (v0.8.0). Live demo: https://agentic-translator-chuckmy.streamlit.app
隐私保护的分布式光伏系统发电欺诈检测:一种融合太阳能辐照度的联邦学习框架
AI总结 本文提出了一种基于联邦学习的隐私保护分布式光伏系统发电欺诈检测框架,通过融合太阳能辐照度数据和天气数据,利用共注意机制检测关键异常,有效解决了光伏发电欺诈检测中的间歇性和不确定性问题,并在真实世界数据集上验证了方法的有效性。
Comments 15 pages
可能性结构上的证据信息融合
AI总结 本文提出了一种基于可能性结构的证据信息融合方法,通过引入信任演化网络和三角范数家族,实现了更灵活的信息融合框架,适用于非distinct源融合、冲突管理等复杂场景。
D$^2$Evo: 双重难度感知的自进化方法用于数据高效的强化学习
AI总结 本文提出D$^2$Evo方法,通过双重难度感知的自进化机制,解决强化学习中有效数据稀缺和动态难度变化的问题,从而在数学推理基准上以少于2K真实数学样本实现优于现有方法的性能。
Comments Accepted by ICML 2026. First two authors contributed equally
具有对称标注自由学习策略的通用且可操作的部件姿态估计
AI总结 本文提出了一种无需对称标注的通用且可操作的部件姿态估计框架SAFAG,通过分步细化两阶段框架和自监督学习策略解决对称预测问题,提升了在数据匮乏场景下的姿态估计性能和鲁棒性。
Comments Accepted as a poster at the Forty-third International Conference on Machine Learning (ICML 2026)
PARALLAX:区分真实幻觉检测与基准构建人工制品
AI总结 本文研究了大型语言模型幻觉检测中的基准构建人工制品问题,提出DRIFT作为对比方法,发现大部分基线方法在控制条件下表现接近随机,而SAPLMA和DRIFT作为上层隐藏状态的监督探针表现出例外。
Comments Preprint to Neurips 2026 submission
为什么推理模型会失去覆盖能力?数据和道路中的分支在其中的作用
AI总结 本文研究了推理模型覆盖能力下降的原因,发现训练数据中决策点的普遍存在是导致覆盖缩小的关键因素,并提出通过数据合成和解码机制改进来缓解这一问题。
Comments 22 pages, 13 figures
一种考虑冲突的证据框架用于可靠的睡眠阶段分类
AI总结 本文提出了一种考虑冲突的证据框架ConfSleepNet,用于可靠地进行睡眠阶段分类,通过动态解决不同视图之间的冲突,提高分类的可靠性。
Comments 19 pages, 7 figures