TIDE: Task-Isolated Diffusion for Unified Video Editing and Generation
TIDE: 任务隔离扩散模型用于统一视频编辑与生成
发表机构 * Zhejiang University(浙江大学) ; Bilibili Inc.(哔哩哔哩股份有限公司)
AI总结 提出TIDE统一框架,通过逐token任务嵌入和双路径条件机制,实现指令编辑、参考编辑和多参考生成,在多任务渐进训练下达到SOTA性能。
TIDE: 任务隔离扩散模型用于统一视频编辑与生成
发表机构 * Zhejiang University(浙江大学) ; Bilibili Inc.(哔哩哔哩股份有限公司)
AI总结 提出TIDE统一框架,通过逐token任务嵌入和双路径条件机制,实现指令编辑、参考编辑和多参考生成,在多任务渐进训练下达到SOTA性能。
通过API实现差分隐私合成数据 4: 表格数据
发表机构 * Microsoft(微软)
AI总结 提出Tab-PE算法,将Private Evolution框架扩展至表格数据,通过启发式算子迭代优化候选数据集,在保持差分隐私的同时高效处理高阶相关性,相比基线AIM分类准确率提升最高10%,速度提升28倍。
Traxia:一个可验证的、智能体原生的科学出版框架
发表机构 * Faculty of Computing and Mathematical Sciences, University of Mines and Technology (UMaT), Tarkwa, Ghana(加纳塔夸矿业与技术大学计算与数学科学学院) ; BlackMatrix AI Research, Accra, Ghana(加纳阿克拉BlackMatrix AI研究院)
AI总结 提出Traxia框架,通过智能体身份、可验证出版、四层同行评审、声誉机制和知识图谱,解决科学出版中可验证性、归属和可重复性问题。
SSR: 模拟患者能否学会自我污名化?通过内心独白建模自我污名
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; X-LANCE Lab, Dept. of Computer Science and Engineering(X-LANCE实验室,计算机科学与工程系) ; MoE Key Lab of Artificial Intelligence, AI Institute(教育部人工智能重点实验室,人工智能研究院)
AI总结 提出基于心理3A1H模型的SSR框架,通过内心独白数据集和链式思维微调LLM,使模拟患者根据对话触发动态调整污名表达,生成更真实的情境适应性反应。
注意你的步伐:一种用于精确人形机器人落脚点跟踪的通用学习框架
发表机构 * Politecnico di Milano(米兰理工大学) ; TU Darmstadt(达姆施塔特工业大学) ; Max Planck Institute for Intelligent Systems(马克斯·普朗克智能系统研究所) ; Italian Institute of Technology(意大利技术研究院) ; University of Pisa(比萨大学)
AI总结 提出一种轻量级通用3D落脚点跟踪策略学习框架,通过目标采样器动态提供步态支持,结合新目标表示克服真实世界噪声,实现与多种高层规划器无缝集成的精确自然运动。
ZAS-SQL: 从失败中提炼规则用于零样本文本到SQL
发表机构 * Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University(同济大学上海自主智能无人系统科学中心) ; College of Architecture and Urban Planning, Tongji University(同济大学建筑与城市规划学院) ; Behavioral and Spatial AI Lab, Peking University & Tongji University(北京大学与同济大学行为与空间人工智能实验室)
AI总结 提出ZAS-SQL零样本框架,通过Map-Reduce规则蒸馏从失败案例中提取核心生成规则,结合知识增强模式表示、规则驱动结构化推理和执行引导早停三个模块,在Spider上达到87.2%和88.6%执行准确率,超越多个少样本和微调方法。
构建带有工具性干预的比较动机概况
发表机构 * MATS ; University of Cambridge(剑桥大学) ; KAIST(韩国科学技术院) ; George Washington University(乔治华盛顿大学)
AI总结 通过对称工具性干预区分对齐伪装中的策略性自我保护与研究者期望追踪,发现模型对期望追踪更敏感,提示需要构念效度检验。
Light-WAM:基于状态融合动作解码的高效世界动作模型
发表机构 * Wuhan University(武汉大学) ; Shanghai Innovation Institute(上海创新研究院) ; Southeast University(东南大学) ; Fudan University(复旦大学) ; East China Normal University(华东师范大学)
AI总结 提出轻量级世界动作模型Light-WAM,通过紧凑视频骨干和降维潜空间未来视频监督降低训练成本,并引入状态融合动作专家实现高效动作预测,在LIBERO和RoboTwin 2.0上取得良好性能。
当没有正确答案时:诊断视频理解中多模态大语言模型的缺失答案检测
发表机构 * Duke University(杜克大学)
AI总结 研究多模态大语言模型在视频理解中检测缺失答案的能力,发现模型倾向于选择干扰项而非识别无正确答案,时间推理任务中问题更严重,链式思维提示虽提升检测率但仍不理想。
SciTrace: 面向科学发现代理的轨迹感知安全推理
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Allen Institute(艾伦研究所)
AI总结 提出SciTrace框架,通过安全内在推理循环和组合工具链验证器,在科学代理管道的每个阶段融入安全推理,实现工具调用安全性和对抗鲁棒性的SOTA提升。
多模态基础模型中的测试时扩展:生成与推理的综合调查
发表机构 * Sun Yat-sen University(中山大学)
AI总结 本文首次系统综述多模态基础模型中的测试时扩展(TTS)方法,提出统一分类框架(采样、反馈、搜索三类),总结应用与基准,并讨论未来方向。
基于Token级光学性质预条件的从头分子生成
发表机构 * University of Toronto(多伦多大学) ; Vector Institute for Artificial Intelligence(向量人工智能研究所) ; Universidad Autónoma de Madrid(马德里自治大学) ; Canadian Institute for Advanced Research (CIFAR)(加拿大高等研究院) ; NVIDIA(英伟达)
AI总结 针对OLED分子光学性质可控生成中数据稀缺和条件控制可靠性有限的问题,提出基于GPT2的Token条件自回归语言模型,通过离散属性Token和多任务优化实现垂直吸收能和振子强度的定向生成,并在TDDFT级别评估分布保真度和可控性。
深度高斯过程到底有多深?组合高斯过程的尖锐阈值与非高斯极限
发表机构 * Technion, IIT(以色列理工学院) ; NVIDIA(英伟达)
AI总结 本文研究了深度高斯过程先验在深度增长时的极限行为,识别出RBF核带宽的尖锐阈值,低于该阈值时先验收敛到非退化非高斯分布,具有非零坐标依赖。
面向人机协同工业机器人的智能神经符号规划与调试:基于数字孪生
发表机构 * Royal Institute of Technology (KTH)(皇家理工学院(KTH))
AI总结 提出一种结合LLM语言理解与确定性验证执行的神经符号框架,采用SDI架构和两级恢复机制,在数字孪生中验证后执行,显著提升任务成功率。
面向机器学习初学者的公共机器学习求解器框架
发表机构 * LATECE Lab, Université du Québec à Montréal(LATECE实验室,魁北克大学蒙特利尔分校)
AI总结 提出一个结合专家知识和迁移学习的半自动化平台,为非专家推荐完整的机器学习流水线,并自动提取数据特征,通过一阶逻辑推理提供排名算法。
SegmentAnyTreeV2:跨传感器、平台和森林的基于Transformer的树木实例分割扩展
发表机构 * Norwegian Institute of Bioeconomy Research (NIBIO)(挪威生物经济研究所(NIBIO))
AI总结 提出SegmentAnyTreeV2,一种传感器和平台无关的森林点云语义与实例分割框架,结合Point Transformer v3骨干网络、轻量语义头和树木交叉注意力掩码解码器,在FOR-instance v3基准上达到90.5%精度和80.2%召回率,并展现出强跨域泛化能力。
利用卫星图像赋予前馈重建模型度量尺度
发表机构 * Nanjing University of Science and Technology(南京理工大学) ; ShanghaiTech University(上海科技大学)
AI总结 提出卫星引导框架,通过双向交叉视图交互利用卫星图像作为全局度量参考,解决前馈3D重建中的尺度模糊问题,实现度量深度估计、点云重建和相机定位。
具有层次和空间局部性先验的神经场分词
发表机构 * Zuse Institute Berlin (ZIB)(柏林祖斯研究所) ; Cartesia AI ; Technische Universität Berlin(柏林工业大学)
AI总结 提出LH-NeF框架,利用层次和局部性先验学习通用连续信号的分词表示,通过前馈编码替代元学习,内存减少42倍,批大小提升133倍,在图像、3D形状和气候场上匹配或超越多种基线。
AlignFed: 异构边缘环境中大语言模型的对齐感知异步联邦微调
发表机构 * University of Science and Technology Beijing(北京科技大学)
AI总结 提出AlignFed框架,通过多阶段语义对齐机制(版本感知更新分组、跨版本语义对齐、公平性感知聚合)解决异步联邦微调中大语言模型在异构边缘环境中的模型漂移、客户端漂移和聚合不公平问题。
GlobeAudio:用于大型音频-语言模型自然主义评估的多语言多文化基准
发表机构 * Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 提出GlobeAudio基准,包含5637道多语言多选题,评估大型音频-语言模型在自然音频条件下的听觉推理和文化理解能力,发现开源模型和低资源语言存在显著性能差距。
螺旋桨辅助的鲁棒三维跳跃机器人及分层力分配
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Guangdong Technion–Israel Institute of Technology(广东以色列理工学院) ; Technion–Israel Institute of Technology(以色列理工学院) ; Multiscale Medical Robotics Centre(多尺度医疗机器人中心)
AI总结 提出一种螺旋桨辅助的单腿三维跳跃机器人Pro-OMEGA2,通过分层力分配框架协调腿与三旋翼的力,实现鲁棒跳跃和扰动恢复。
TextEconomizer:利用去噪变换器和熵编码增强有损文本压缩
发表机构 * United International University(联合国际大学) ; BRAC University(BRAC大学) ; Southeast University(东南大学)
AI总结 提出TextEconomizer编码器-解码器框架,结合去噪变换器和熵编码,实现50%-80%的压缩率,参数减少153倍,在BLEU等指标上保持近完美文本质量。
从人类驾驶中学习:一种用于自动驾驶的人机协同在线行为克隆框架
发表机构 * State Key Laboratory of Human-Machine Hybrid Augmented Intelligence, Institute of Artificial Intelligence and Robotics, Xi’an Jiaotong University(西安交通大学人工智能与机器人研究所人机混合增强智能国家重点实验室)
AI总结 提出人机协同在线行为克隆框架HiL-OBC,通过人类干预初始化策略、贝叶斯潜在行为建模和在线更新,结合大模型感知与人类驾驶智能,在CARLA基准上显著提升驾驶性能。
CLASP: 基于语言驱动的机器人技能选择与组合,采用任务参数化学习
发表机构 * German Aerospace Center (DLR), Institute of Robotics and Mechatronics (RMC)(德国航空航天中心(DLR),机器人与机电一体化研究所(RMC)) ; Technical University of Munich (TUM)(慕尼黑工业大学(TUM))
AI总结 提出CLASP架构,结合任务参数化核化运动基元(TP-KMP)与预训练视觉语言模型(VLM),通过自然语言命令实现技能选择、组合和主动学习,无需微调,在7自由度机械臂上达到73.3%-100%成功率。
解释数据混合缩放定律
发表机构 * Beijing Institute of Technology(北京理工大学) ; IIIS, Tsinghua University(清华大学智能产业研究院)
AI总结 提出统一框架解释多领域数据混合中模型损失行为,基于能力竞争和噪声减少两个关键因素,在多个尺度上有效预测高性能混合。
MRI预处理需要多少才够?脑MRI基础模型的成本效用研究
发表机构 * University of the Chinese Academy of Sciences(中国科学院大学) ; BGI Research(华大研究院)
AI总结 本研究通过比较P0-P7预处理级别对自监督3D MRI预训练的影响,发现并非预处理越强越好,P2是最低成本可行级别,更强预处理仅在特定任务中带来有限提升,且下游可补偿。
AttentionCap: 基于Transformer的电容矩阵学习用于全芯片提取
发表机构 * Dept. Computer Science & Tech., BNRist, Tsinghua Univ., Beijing, China(清华大学计算机科学与技术系,北京信息科学与技术国家研究中心) ; School of IC, BNRist, Tsinghua Univ., Beijing, China(清华大学集成电路学院,北京信息科学与技术国家研究中心) ; School of IC, Peking Univ., Beijing, China(北京大学集成电路学院)
AI总结 提出AttentionCap,一种定制化Transformer,结合Gram表示、对称注意力输出层和归一化拉普拉斯损失,实现多层多节点下的高精度电容矩阵预测,速度提升192倍。
RAPID: 逐层冗余感知剪枝与重要性驱动的令牌合并以实现高效ViT
发表机构 * Hankuk University of Foreign Studies(韩国外国语大学)
AI总结 提出RAPID框架,根据ViT网络深度自适应调整令牌缩减策略:浅中层用冗余相似度感知剪枝,深层用重要性相似度感知合并,在ImageNet-1K上实现更优的精度-压缩帕累托前沿。
我以前解决过这个问题吗?检索相似分割问题进行进化学习
发表机构 * University of Augsburg(奥格斯堡大学)
AI总结 提出一种基于检索相似分割问题的进化学习方法,通过重用已有管道避免从头训练模型,降低开发成本,并分析跨域迁移的可行性。
SynthICL: 基于合成数据的可扩展上下文模仿学习
发表机构 * The Robot Learning Lab(机器人学习实验室) ; Imperial College London(伦敦帝国理工学院)
AI总结 提出SynthICL框架,利用纯RGB合成数据训练上下文模仿学习策略,避免深度传感和真实数据,通过子目标预测提升控制精度,在16个真实操作任务中平均成功率79%。