Finite Automata Extraction: Low-data World Model Learning as Programs from Gameplay Video
有限自动机提取:从游戏录像中学习低数据世界模型作为程序
AI总结 本文提出了一种名为有限自动机提取(FAE)的方法,通过一种新的领域特定语言(DSL)Retro Coder,从游戏录像中学习神经符号世界模型,相较于以往的方法,FAE能够更精确地建模环境并生成更通用的代码。
有限自动机提取:从游戏录像中学习低数据世界模型作为程序
AI总结 本文提出了一种名为有限自动机提取(FAE)的方法,通过一种新的领域特定语言(DSL)Retro Coder,从游戏录像中学习神经符号世界模型,相较于以往的方法,FAE能够更精确地建模环境并生成更通用的代码。
通过单目法线图增强基于事件的目标检测
AI总结 本文提出NRE-Net框架,结合法线图的结构先验、RGB图像的外观上下文和事件的高频动态,通过自适应双流融合模块和事件模态感知融合模块提升自动驾驶中复杂光照下的目标检测性能。
通过世界模型的模拟推理实现通用代理规划
AI总结 本文提出通过模拟推理实现通用代理规划,利用世界模型进行未来状态预测,提升决策能力,通过SiRA架构在不同任务中取得更高任务完成率。
Comments Winner of Berkeley LLM Agents Hackathon (Fundamentals Track); code available at https://github.com/sailing-lab/sira
评估LLM作为裁判的评分偏见
AI总结 本文研究了LLM作为裁判在评分任务中的偏见问题,提出了三种新的评分偏见类型,并开发了一个框架来量化这些偏见,以改进评分提示设计。
Comments Accepted by DASFAA 2026
加速测试时间缩放与模型无关的推测采样
AI总结 本文提出STAND,一种无需模型的推测解码方法,通过利用推理轨迹中的冗余性,显著提升推理效率而不牺牲准确性,经多个模型和任务评估,STAND在保持准确性的同时将推理延迟降低了60-65%。
Comments EMNLP 2025 Oral
MTR-Bench:多轮推理评估的综合性基准
AI总结 本文提出MTR-Bench,一个包含4类、40个任务和3600个实例的综合性基准,用于评估大型语言模型的多轮推理能力,通过自动化框架实现大规模评估,并揭示了当前先进推理模型在多轮交互任务中的不足。
Comments ACL 2026 Main Conference
Circle-RoPE: 用于大视觉-语言模型的锥形解耦旋转位置嵌入
AI总结 本文提出Circle-RoPE,通过将图像标记坐标映射到与文本位置轴正交的圆环上,实现跨模态位置解耦,同时保留图像内部空间结构,并通过交替几何编码增强跨模态位置解耦和细粒度图像空间结构保留。
Comments Accepted at ICML 2026
框入框出:衡量LLM生成新闻摘要中的框架偏差
AI总结 本文提出FIFO基准测试,用于衡量LLM生成的新闻摘要中的框架存在性,发现LLM生成的摘要在科学和公共卫生领域显示出较高的框架率,表明框架是摘要质量的一个被忽视但重要的维度。
Comments Accepted to The 15th Joint Conference on Lexical and Computational Semantics (*SEM 2026) co-located with ACL 2026
利用通用医疗基准评估大型语言模型的临床能力
AI总结 本文提出了一种新的评估框架,通过通用医疗基准(GPBench)评估大型语言模型在医疗实践中的能力,发现当前LLM无法独立应用于临床医疗,需持续的人类监督。
神经符号AI用于微分方程的解析解
AI总结 本文提出SIGS神经符号框架,通过上下文无关文法生成数学上有效且物理上有意义的构建块,并结合用户指定的Ansatz进行组合,嵌入到拓扑正则化的连续潜在流形中,通过两阶段搜索发现解析解,提高了微分方程解析解的准确性和效率。
Comments Updates the method and added extra results
利用多时相哨兵1和2卫星数据进行叶面积指数估计的深度学习方法
AI总结 本文提出了一种基于多时相哨兵1雷达数据和哨兵2多谱段数据的深度学习方法,用于像素级叶面积指数预测,通过多U-Net网络结构和共同潜在空间实现不同输入模态的互补信息融合,最终在公开数据上取得了0.06 RMSE和0.93 R2分数。
Music102: 一个 $D_{12}$-等价变换器用于和弦进行伴奏
AI总结 本文提出Music102,一种基于群论和音乐结构的等价变换器,用于提升和弦进行伴奏的质量,通过整合音乐对称性如转位和反射操作,改进了非等价变换器Music101的性能。
Comments 10 pages, 3 figures
用置信度衡量异质处理效应中的变量重要性
AI总结 本文提出PermuCATE算法,用于在估计条件平均处理效应时进行统计严谨的全局变量重要性评估,通过理论分析和实证研究证明其比LOCO方法具有更低的方差,从而提高统计功效,适用于生物医学应用中的有限数据环境。
利用时序多视角网络进行野外条件下4D雷达的人体语义分割
AI总结 本文提出TMVA4D网络,利用4D雷达数据进行人体语义分割,通过多视角投影区分背景与人体,在低能见度条件下实现75.9%的Dice系数和61.2%的IoU指标。
基于大语言模型的累积推理
AI总结 本文提出了一种名为累积推理(CR)的框架,通过模拟人类的迭代和累积思维过程,增强大语言模型(LLM)的问题解决能力。CR通过分解任务、生成并验证中间推理步骤,构建动态有向无环图(DAG)来组成解决方案,从而在逻辑推理、24点游戏和数学问题等任务中取得了显著的性能提升。
Comments Published in Transactions on Machine Learning Research (TMLR). Project Page: https://github.com/iiis-ai/cumulative-reasoning
视觉模型是否编码物体层面的语义相关性?一种受认知心理学启发的基准
AI总结 本文通过一种受认知心理学启发的基准,探讨了视觉模型是否能编码物体层面的语义相关性,研究了两种仅基于图像的测试集,并揭示了分类准确率之外的表征特性。
GenHAR:面向最后一公里配送的跨领域人类活动识别通用化
AI总结 本文提出GenHAR框架,通过学习领域不变的传感器表示来解决跨领域人类活动识别中的分布偏移问题,提升了目标领域的泛化能力,并在实际部署中实现了高效率和高精度的实时活动检测。
RobustSpeechFlow: 通过基于增强的对比流匹配学习鲁棒的文本到语音轨迹
AI总结 本文提出RobustSpeechFlow,一种通过引入长度保持重复和跳过潜在增强来改进对齐鲁棒性的训练策略,从而在无需外部对齐器或偏好数据的情况下,直接惩罚现实中的失败模式,并能无缝集成到现有流程中,实验表明其在文本到语音任务中显著提升了语音质量与鲁棒性。
Comments Submitted to INTERSPEECH 2026
ArabDiscrim: 一个十年的阿拉伯语Facebook语料库,涉及种族主义和歧视
AI总结 本文提出了ArabDiscrim,一个包含293,000条阿拉伯语Facebook公开帖子的十年长的词料库(2014-2024年),用于研究种族主义和歧视。该语料库整合了平台原生的互动信号,如反应、分享、评论和页面元数据,支持语言和受众反应的联合分析。该资源包括200个精心挑选的术语(100个与种族主义相关,100个与歧视相关)以及20个歧视轴,捕捉基于身份的不平等对待。它还提供了显式的归属模式。ArabDiscrim在伦理合规的限制研究使用许可下发布,支持弱监督、轴感知采样和平台生态研究。通过连接词法深度和生态效度,它为公平导向、平台意识的阿拉伯语NLP建立了基础。
Comments Accepted at LREC 2026 Main Conference
通过无训练空间-时间池化和栅格化增强视频大语言模型的视觉令牌表示
AI总结 本文提出了一种无需训练的空间-时间池化和栅格化方法ST-GridPool,用于提升视频大语言模型的视觉令牌表示,通过多级时空交互和基于规范的空间池化技术,在不需重新训练的情况下提高性能。
Comments Accepted by ICLR 2026
呼吸生物标志物能否因果影响血糖?探讨VOC介导的糖尿病调节
AI总结 本研究通过非侵入式数据驱动框架,利用挥发性有机化合物(VOCs)和生活方式变量识别糖尿病高风险个体,采用因果推断技术估计VOCs如乙酮、异丙醇、异戊二烯和乙醇对血糖水平的影响,并设计分类器区分糖尿病患者与非糖尿病患者,建立基于风险的排名系统和高斯混合模型识别自然聚类。
从推理链到可验证子问题:课程强化学习使LLM推理能够进行信用分配
AI总结 该研究提出SCRL框架,通过从参考推理链中生成可验证子问题,解决LLM推理中信用分配问题,提升了在数学推理任务中的性能。
Faithful-MR1: 通过锚定和强化视觉注意力实现忠实的多模态推理
AI总结 本文提出Faithful-MR1框架,通过锚定和强化视觉注意力解决多模态推理中的忠实性问题,提升模型在多模态基准上的表现。
Comments 20 pages, 7 figures, 3 tables. Preprint
COCOTree: 一个用于开放树状视觉分解的数据集和基准
AI总结 本文提出COCOTree数据集和基准,通过自动化生成管道和开放词汇空间,实现了对复杂物理组装的长尾分布的捕捉,并提出了Open Tree Quality (OTQ)评估指标。
Echo4DIR: 从2D超声视频重建4D隐式心脏结构
AI总结 本文提出Echo4DIR框架,通过隐式重建方法从稀疏2D超声视频中重建4D心脏几何结构,解决了几何歧义和时间不连续性问题,实现了高精度的临床重叠度。
分布式图像压缩与多模态侧信息在极低比特率下的应用
AI总结 本文提出了一种多模态分布式图像压缩框架(MDIC),通过利用多模态侧信息在极低比特率下实现高质量图像重建,核心方法是引入文本到图像扩散解码器和特征掩码生成器,以提升全局感知质量和局部细节保留能力。
Comments Accepted by CVPR2026
FlyRoute: 通过数据飞轮实现自进化代理配置以实现适应性任务路由
AI总结 本文提出FlyRoute,一种自进化配置框架,通过真实流量增长能力证据,提高适应性任务路由的性能。
Comments 13 pages, 5 figures, 5 tables
基于原型的分类子任务解耦框架:提升多变量时间序列的泛化能力与可解释性
AI总结 本文提出PDFTime框架,通过多阶段决策过程解耦时间序列分类任务,提升模型的泛化能力和可解释性,实现了在UEA和UCR基准测试中的最优性能。
LABO: 通过广泛探索和选择性实验实现的LLM加速贝叶斯优化
AI总结 本文提出LABO框架,通过结合LLM预测与实验观测,在贝叶斯优化中实现更高效的样本优化,理论分析和实验结果表明其在科学任务中优于现有方法。
Comments Accepted to ICML 2026
EasyVFX: 用于资源高效视觉效果生成的频率驱动解耦
AI总结 本文提出EasyVFX框架,通过频率域分解解耦高频和低频成分,降低视觉效果生成的计算和数据依赖性,实现高效且高质量的视觉效果合成。
Comments Accepted by SIGGRAPH 2026. Project page: https://easy-vfx.github.io/