Kairos: A Native World Model Stack for Physical AI
Kairos: 面向物理AI的原生世界模型栈
发表机构 * Kairos Team(Kairos团队)
AI总结 提出Kairos原生世界模型栈,通过跨具身数据课程、混合线性时间注意力架构和部署感知系统协同设计,实现世界知识获取、长时程状态保持与高效执行,在具身世界模型等基准上达到顶级性能。
Kairos: 面向物理AI的原生世界模型栈
发表机构 * Kairos Team(Kairos团队)
AI总结 提出Kairos原生世界模型栈,通过跨具身数据课程、混合线性时间注意力架构和部署感知系统协同设计,实现世界知识获取、长时程状态保持与高效执行,在具身世界模型等基准上达到顶级性能。
PermaVid: 通过解耦上下文记忆实现编辑下的一致视频生成
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Stanford University(斯坦福大学) ; S-Lab, Nanyang Technological University(南洋理工大学S-Lab) ; The Chinese University of Hong Kong(香港中文大学) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 提出PermaVid框架,利用解耦为语义外观和几何结构的上下文记忆,结合编辑感知更新策略,实现编辑操作后视频的长期一致生成。
Comments Project page: https://ys-imtech.github.io/projects/PermaVid/
可扩展且可解释的序数相似性表示对齐
发表机构 * University of Maryland(马里兰大学) ; Google Research(谷歌研究院)
AI总结 针对现有表示相似性度量缺乏可解释性、对异常值敏感且计算复杂的问题,提出基于序数相似性的三元组和四元组相似性指数,实现可解释、鲁棒且高效的对齐度量。
医学启发式学习:一个用于可解释和可审计临床决策规则的LLM驱动框架
发表机构 * Centre for Artificial Intelligence Driven Drug Discovery, Macao Polytechnic University(人工智能驱动药物发现中心,澳门理工学院) ; Key Laboratory of Short-Range Radio Equipment Testing and Evaluation, Ministry of Industry and Information Technology Terahertz Science Application Center (TSAC), Beijing Institute of Technology(工业和信息化部短距离无线电设备测试与评估重点实验室,太赫兹科学应用中心(TSAC),北京理工大学) ; Department of Critical Care Medicine, Yantai Yuhuangding Hospital, Qingdao University(重症医学科,烟台友谊医院,青岛大学) ; Faculty of Education, The University of Hong Kong(教育学院,香港大学) ; College of Information Engineering, Dalian University(信息工程学院,大连大学)
AI总结 提出医学启发式学习(MHL),利用LLM驱动的工作流优化确定性可执行决策系统,生成可解释、可审计的Python决策规则,在医学数据集上达到与最先进方法相当的性能,并支持小样本和高度不平衡场景。
DynFS-MoE: 用于创伤后癫痫诊断的动态功能-结构混合专家模型
发表机构 * Department of Systems Engineering, Stevens Institute of Technology(史蒂文斯理工学院系统工程系) ; Department of Neurosurgery, Robert Wood Johnson Medical School, Rutgers University(罗格斯大学罗伯特·伍德·约翰逊医学院神经外科)
AI总结 提出动态多模态混合专家框架,通过时间感知功能-结构编码和类别条件专家路由,融合功能与结构MRI,在三个二分类任务中优于静态融合基线,并揭示有意义的ROI交互。
Mind-Studio: 针对部分可观测游戏的可执行世界模型与前向评估
发表机构 * Hong Kong University of Science and Technology(香港科技大学) ; City University of Hong Kong(香港城市大学) ; University of Edinburgh(爱丁堡大学) ; Hong Kong Baptist University(香港浸会大学)
AI总结 提出Mind-Studio框架,利用大语言模型从轨迹合成可执行的pygame风格世界模型,通过K步前向保真度协议评估,在Montezuma's Revenge等游戏中显著提升预测准确性和子目标验证。
Comments 12 pages, 2 figures
弥合可用性差距:口译研究对机器口译设计的启示
发表机构 * University of Mainz(美因茨大学)
AI总结 本文定义机器口译为语音翻译的子领域,指出其存在“准确性幻觉”,并借鉴口译研究提出未来设计的三个优先方向:能动性、共同基础与体验,以弥合可用性差距。
GOOSE-M2F:适配Mask2Former用于非结构化户外地形的高保真、长尾细粒度语义分割
发表机构 * Rajiv Gandhi University of Knowledge Technologies, Nuzvid, India(拉吉夫·甘地知识技术大学,努兹维德,印度)
AI总结 针对非结构化户外地形长尾细粒度语义分割挑战,提出GOOSE-M2F,通过200个对象查询、特征精炼模块和辅助监督头,结合多阶段训练策略,在GOOSE基准上达到70.08%复合mIoU。
Comments This solution has got 3rd position at GOOSE 2D Fine-Grained Semantic Segmentation (FGSS) Challenge at ICRA~2026
超越NL2Code:多模态代码智能的结构化综述
发表机构 * Meituan(美团) ; The University of Hong Kong(香港大学) ; The Chinese University of Hong Kong(香港中文大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Nanjing University(南京大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Australian Institute for Machine Learning, Adelaide University(阿德莱德大学澳大利亚机器学习研究所) ; Ludwig Maximilian University of Munich(慕尼黑大学) ; University of Science and Technology of China(中国科学技术大学) ; Queen Mary University of London(伦敦玛丽女王大学)
AI总结 本文系统综述多模态代码智能,将任务按代码角色分类,覆盖GUI、科学可视化、结构化图形及前沿任务,并提出四个基于验证的未来方向。
Comments Work completed in January 2026. Updating now
控制平面放置塑造遗忘:跨十三种系统配置的智能体记忆架构研究
发表机构 * DeepLethe
AI总结 研究LLM在智能体记忆管道中的位置(控制平面 vs 召回平面)对遗忘失败模式的影响,通过13种配置在385例对抗测试集上的实验,揭示了三种放置机制的互补覆盖范围,并提出了ForgetEval评估套件。
Comments 25 pages including appendices. Code, benchmark, and adapters released under MIT at https://github.com/deeplethe/lethe
Koshur Diacritizer:用于克什米尔语变音符号恢复的字节级序列到序列模型
发表机构 * arXiv
AI总结 针对克什米尔语数字文本中变音符号缺失导致的歧义问题,提出基于ByT5-small的字节级序列到序列模型Koshur Diacritizer,结合脚本感知归一化、对齐验证和骨架保留推理,在测试集上实现DERm 0.2012和WER 0.2159,专家评估准确率77.5%。
EHRNote-ChatQA:一个面向纵向出院总结的基于证据的多轮临床问答基准
发表机构 * KAIST(韩国科学技术院) ; Seoul National University(首尔大学) ; Seoul National University Bundang Hospital(首尔大学盆唐医院) ; SAIHST, Sungkyunkwan University(成均馆大学) ; Yonsei University College of Medicine(延世大学医学院) ; Gangnam Severance Hospital(江南塞弗伦斯医院) ; Severance Hospital(塞弗伦斯医院) ; Seoul Medical Center(首尔医疗中心) ; Seoul National University Hospital(首尔大学医院) ; National Cancer Center(国立癌症中心) ; Icahn School of Medicine at Mount Sinai(西奈山伊坎医学院) ; Samsung Medical Center(三星医疗中心)
AI总结 提出EHRNote-ChatQA基准,基于MIMIC-IV出院总结构建,包含967个多轮样本和16072个专家验证的QA对,评估LLM在证据支持下的多轮临床问答能力,发现模型在证据定位和多轮错误累积方面存在挑战。
NeRD:面向医学图像诊断的高效本体接地思维链的神经符号规则蒸馏
发表机构 * Department of Data Science & AI, Faculty of Information Technology, Monash University(莫纳什大学信息技术学院数据科学与人工智能系) ; AIM for Health Lab, Faculty of Information Technology, Monash University(莫纳什大学信息技术学院AIM健康实验室) ; Faculty of Engineering, Monash University(莫纳什大学工程学院) ; Faculty of Medicine, The Chinese University of Hong Kong(香港中文大学医学院) ; School of Computing Technologies, RMIT University(皇家墨尔本理工大学计算技术学院)
AI总结 提出NeRD框架,通过神经符号规则蒸馏生成高效、本体接地且非冗余的推理链,避免人工规则,在皮肤数据集上实现强诊断性能和可解释性,并首次实现专家介入的多模态思维链诊断。
Comments Accepted at MICCAI 2026
扩散同步的变分测试时优化
发表机构 * Seoul National University(首尔大学) ; University of California, Irvine(加利福尼亚大学尔湾分校)
AI总结 提出基于最优控制的变分测试时优化框架,通过优化控制变量引导多轨迹协同生成,无需额外训练即可提升扩散同步性能。
Comments Preprint. Project website: https://hleephilip.github.io/SyncVC/
我们是否拥有所需的知识?重新思考企业中的人机决策
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; Department of Computer Science & ETH AI Center, ETH Zurich(苏黎世联邦理工学院计算机科学系与ETH AI中心) ; Department of Computer Science & Architecture, ETH Zurich(苏黎世联邦理工学院计算机科学与建筑系) ; Department of Management, Technology, and Economics, ETH Zurich(苏黎世联邦理工学院管理、技术与经济系) ; Department of Computer Science, ETH Zurich(苏黎世联邦理工学院计算机科学系)
AI总结 本文提出一个框架,根据任务属性和知识可用性推荐人机代理分配与控制机制,并应用于制造任务示例。
Comments Proceedings of AutomationXP26 Workshop of the 2026 CHI Conference on Human Factors in Computing Systems, April 14, 2026, Barcelona, Spain. ACM, New York, NY, USA, 8 pages
面向多模态代理网络的QoS感知令牌调度与私有数据估值
发表机构 * University of British Columbia(不列颠哥伦比亚大学) ; Lazai Network(Lazai网络)
AI总结 针对去中心化代理系统中数据异构和资源受限问题,提出基于差分隐私的多模态表示与公平令牌分配方案,在保障服务质量的同时提升数据隐私和贡献公平性。
Comments Accepted to IEEE ICME 2026
贪婪坐标扩散:通过扩散引导实现有效且语义一致的对抗攻击
发表机构 * University of Maryland(马里兰大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出贪婪坐标扩散方法,利用扩散模型引导生成语义连贯的对抗样本,在保持自然性的同时实现高攻击成功率。
Journal ref ICML 2026
开放智能的组合框架
发表机构 * GitHub
AI总结 提出开放智能的形式化定义,通过有限原始集和组合算子生成闭包,支持跨任务和世界的无限组合生成,并引入下一原始预测作为架构目标。
展示信号,隐藏噪声:像素空间扩散的频谱强制
发表机构 * S-Lab, Nanyang Technological University(南洋理工大学S-Lab)
AI总结 提出频谱强制方法,通过在像素空间扩散模型中对噪声输入施加时变低通滤波器,引导模型关注信号频带,提升训练效率和生成质量。
Comments Code link: https://github.com/WeichenFan/Spectral_Forcing
MimicIK: 基于遥操作且保持正运动学一致性的实时生成式逆运动学
发表机构 * Ising AI ; CUHK-Shenzhen(香港中文大学(深圳))
AI总结 提出MimicIK框架,利用条件流匹配从遥操作数据学习平滑鲁棒的关节空间运动先验,通过两阶段迭代优化和正运动学一致性损失实现实时逆运动学求解,在6-DOF机器人数据集上达到4.65mm位置误差和92.01%成功率。
当认知图遇见大语言模型:恐慌情绪唤醒预测的BDEI认知路径
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出PanicCognitivePath框架,通过心理安全距离模型融合多域信号,引入显式情绪节点构建BDEI认知路径,将LLM限制于单步参数估计,实现恐慌情绪唤醒时间预测,准确率提升10.68%。
有理稀疏自编码器
发表机构 * Lehigh University(里海大学)
AI总结 提出有理稀疏自编码器(RSAE),用可训练有理函数替代固定编码器激活,通过两阶段流程(初始化+微调)在多种语言模型和基线激活族上提升重构与下游行为指标,不牺牲特征可解释性。
Comments Accepted to the Mechanistic Interpretability Workshop at ICML 2026
最后但同样重要:用于多模态KV缓存压缩的边界注意力校准
发表机构 * KAIST(韩国科学技术院) ; Zhejiang Laboratory(之江实验室) ; The Chinese University of Hong Kong(香港中文大学) ; National University of Singapore(新加坡国立大学)
AI总结 针对多模态大语言模型长视觉上下文中KV缓存压缩导致关键证据丢失的问题,提出BACON方法,通过校准观察窗口注意力与最后查询注意力,并利用层内一致性和层间持久性抑制噪声,在激进压缩下平均提升7.5%性能。
何时写入与何时抑制:面向记忆辅助知识编辑的路径专用双适配器
发表机构 * institutetext(机构)
AI总结 提出路径专用双适配器编辑器,通过相关性路由器决定是否应用编辑记忆,分别训练编辑适配器和局部性适配器,在三个基准上取得最佳概率偏好准确率。
TRACE: 用于延迟证据视觉运动模仿的轨迹路由因果记忆
发表机构 * Zeno AI ; Zhejiang University(浙江大学) ; Zhejiang University of Technology(浙江工业大学) ; The University of Sydney(悉尼大学)
AI总结 针对视觉运动模仿中早期线索消失导致观察歧义的问题,提出TRACE记忆框架,利用路径签名存储和检索任务相关证据,在长周期任务中提升分支选择准确率。
CADET: 基于物理的因果审计与无训练去混杂的端到端驾驶规划器
发表机构 * School of Electronics Engineering, Kyungpook National University(庆北国立大学电子工程学院)
AI总结 提出CADET框架,无需重新训练即可审计和修复预训练端到端驾驶规划器中的虚假关联,通过物理因果图识别混杂因素并干预测试时输入。
Comments 8pages 4figures
IndustryBench-MIPU:面向工业产品的多图像属性值提取基准
发表机构 * Multimodal and Industrial AI Team(多模态与工业AI团队) ; Taobao&Tmall, Alibaba Group(淘宝&天猫,阿里巴巴集团)
AI总结 提出首个多图像工业产品理解基准IndustryBench-MIPU,通过结构化属性提取任务评估多模态大模型在规格表、铭牌、技术图纸上的文本识别、视觉推理、领域知识和跨图像证据整合能力,发现多图像完整性是核心瓶颈。
Zeta: 通过坐标自适应预处理实现矩阵优化的双重白化
发表机构 * South China University of Technology(华南理工大学) ; AIGCode ; Hong Kong Baptist University(香港浸会大学)
AI总结 针对矩阵优化中坐标尺度异质性问题,提出双重白化优化器Zeta,通过先坐标白化后谱白化的严格顺序降低正交化误差,在语言建模和视觉任务上提升收敛速度与泛化性能。
微动作识别与检测的新多领域基准
发表机构 * School of Computer Science and Information Engineering, Hefei University of Technology(合肥工业大学计算机科学与信息工程学院) ; School of Information Science and Technology, University of Science and Technology of China(中国科学技术大学信息科学技术学院)
AI总结 提出MMA-82,一个大规模多领域微动作基准,扩展至82个类别、4个领域,涵盖识别与多标签检测任务,实验表明现有方法在域迁移、长尾分布等场景下仍面临挑战。
Comments 10 pages, 9 figures
Clay-CNN混合模型:利用地理基础模型作为滑坡检测的辅助上下文
发表机构 * Harvard University(哈佛大学)
AI总结 针对滑坡检测中的极端类别不平衡问题,提出将地理基础模型Clay v1.5作为辅助上下文注入U-Net瓶颈的混合方法,在Landslide4Sense基准上达到64.5% F1,优于纯Clay或U-Net基线。