CRAG: Can 3D Generative Models Help 3D Assembly?
CRAG: 3D生成模型能否辅助3D装配?
发表机构 * arXiv.org ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出CRAG方法,将3D装配与形状生成联合优化,通过生成完整形状和预测部件姿态实现相互增强,在多种几何、部件数和缺失情况下达到最优性能。
CRAG: 3D生成模型能否辅助3D装配?
发表机构 * arXiv.org ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出CRAG方法,将3D装配与形状生成联合优化,通过生成完整形状和预测部件姿态实现相互增强,在多种几何、部件数和缺失情况下达到最优性能。
LatentLens: 揭示大语言模型中高度可解释的视觉标记
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出 LatentLens 方法,通过将视觉标记与文本语料库中的上下文标记表示进行最近邻匹配,实现视觉标记的可解释性,发现大多数视觉标记在各层均具有可解释性。
HiGR:腾讯工业级层次化生成式推荐框架
发表机构 * Platform and Content Group, Tencent(腾讯平台与内容组) ; Sun Yat-sen University(中山大学)
AI总结 提出HiGR框架,通过结构化语义ID和层次化解码器解决生成式推荐在工业规模下的规划效率与列表质量对齐问题,离线质量提升超10%,推理加速5倍。
FENCE:一个金融和多模态越狱检测数据集
发表机构 * arXiv
AI总结 针对金融领域多模态越狱检测资源匮乏的问题,提出FENCE数据集,包含韩英双语文本和图像,用于训练和评估检测器,实验表明基线检测器准确率达99%。
基于李雅普诺夫的PI类控制用于四轮独立驱动与转向机器人的鲁棒轨迹跟踪:设计与实验验证
发表机构 * Faculty of Mechanical Engineering and Naval Architecture, University of Zagreb(Zagreb大学机械工程与造船工程学院) ; Regional Centre of Excellence for Robotic Technology (CRTA)(机器人技术卓越研究中心) ; Croatian Academy of Sciences and Arts(克罗地亚科学院)
AI总结 提出一种基于李雅普诺夫的PI类控制器,结合模型前馈补偿,实现四轮独立驱动与转向机器人的鲁棒轨迹跟踪,并通过实验验证其优于PI和滑模控制器。
InnoEval:将研究思路评估视为基于知识的多视角推理问题
发表机构 * arXiv.org ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出InnoEval框架,通过异构深度知识检索和多视角评审委员会,实现基于知识的多维度解耦评估,在点对点、成对和分组评估任务中优于基线方法。
多轮交互中的安全隐患:工具使用智能体的多轮安全风险基准与防御
发表机构 * Stanford University(斯坦福大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出多轮工具使用安全基准MT-AgentRisk,发现多轮设置下攻击成功率平均增加16%,并设计无训练、与工具无关的自探索防御方法ToolShield,平均降低30%攻击成功率。
Fin-RATE:面向SEC文件的金融分析与追踪评估基准
发表机构 * Tongji University(同济大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; Yale University(耶鲁大学) ; Goldman Sachs(高盛集团)
AI总结 针对LLM在金融领域分析复杂监管文件的需求,提出基于SEC文件的Fin-RATE基准,通过三种任务路径评估模型,发现跨文档和跨时间分析时性能显著下降。
层次化后继表示用于鲁棒迁移
发表机构 * University of Cambridge(剑桥大学) ; DeepMind(深度思维)
AI总结 提出层次化后继表示(HSR),通过时间抽象构建鲁棒的状态特征,结合非负矩阵分解实现稀疏低秩表示,支持多隔间环境下的高效任务迁移与探索。
刀刃上的学习:多项式神经网络的可辨识性与奇异性
发表机构 * Department of Mathematics, KTH Royal Institute of Technology(数学系,皇家理工学院)
AI总结 研究以多项式为激活函数的MLP和CNN的函数空间(神经流形),证明MLP参数化几乎处处有限对一,CNN参数化一一对应,并刻画奇异性源于稀疏子网络,解释MLP的稀疏偏好。
自适应视界冲突搜索用于闭环多智能体路径规划
发表机构 * Laboratory for Information and Decision Systems, Massachusetts Institute of Technology(信息与决策系统实验室,麻省理工学院) ; Schwarzman College of Computing(施瓦茨曼计算学院)
AI总结 提出ACCBS算法,通过动态调整规划视界和重用约束树,在有限计算预算下快速生成高质量可行解,兼具渐近最优性和扰动适应性。
TokaMark:MAST托卡马克等离子体模型的综合基准
发表机构 * IBM Research Europe(IBM欧洲研究院) ; UK Atomic Energy Authority(英国原子能局) ; STFC Hartree Centre(STFC哈特ree中心)
AI总结 为解决聚变数据稀缺、分散且标注不一致的问题,提出TokaMark基准,包含14项任务,统一多模态聚变数据访问和评估协议,并提供基线模型,以加速数据驱动的AI等离子体建模。
LingxiDiagBench: 用于基准测试大语言模型在中文精神科咨询与诊断中的多智能体框架
发表机构 * Tianqiao and Chrissy Chen Institute(天桥和克里斯西·陈研究所) ; EverMind AI Inc.(EverMind AI公司) ; Shanghai Mental Health Center, Shanghai Jiao Tong University School of Medicine(上海精神卫生中心,上海交通大学医学院)
AI总结 提出LingxiDiagBench多智能体框架,包含16K电子病历对齐的合成咨询对话数据集,评估LLM在静态诊断和动态咨询中的表现,发现其对抑郁-焦虑共病识别和12类鉴别诊断准确率低,动态咨询常不如静态评估。
龟裂的魅力:一种变分-生成式绘画裂纹检测方法
发表机构 * Dept. of Mathematics, LMU Munich(数学系,慕尼黑大学) ; Munich Center for Machine Learning(慕尼黑机器学习中心) ; Helmholtz Imaging, Deutsches Elektronen-Synchrotron DESY(海德堡影像,德意志电子同步辐射光源) ; Fachbereich Mathematik, University of Hamburg(数学学院,汉堡大学) ; CIT School, Technical University of Munich(技术大学慕尼黑信息学院)
AI总结 提出混合方法,将裂纹检测建模为逆问题,用深度生成模型作为画作先验,结合Mumford-Shah变分泛函和裂纹先验,通过联合优化获得像素级裂纹定位图。
关于自动化日志解析的序列到序列模型
发表机构 * Toronto University(多伦多大学)
AI总结 本研究系统评估了四种序列建模架构(Transformer、Mamba、单/双向LSTM)在自动化日志解析中的性能,发现Transformer表现最佳,Mamba在计算成本较低时具有竞争力,并分析了表示选择、序列长度和数据效率的影响。
Ex-Omni:为全模态大语言模型赋能3D面部动画生成
发表机构 * The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; LIGHTSPEED ; Independent Researcher(独立研究员)
AI总结 提出Ex-Omni模型,通过混合形状感知语音单元生成器和解码器解耦语义推理与时间生成,并引入统一令牌查询门控融合机制,实现全模态大语言模型同步生成语音和3D面部动画。
针对机器人系统神经网络控制器的木马攻击
发表机构 * Concordia University(康科德大学) ; Concordia Institute for Information Systems Engineering(康科德信息系统工程研究所) ; Fonds de recherche du Québec – Nature et Technologies(魁北克自然与技术研究基金) ; National Cybersecurity Consortium(国家网络安全联盟)
AI总结 针对机器人神经网络控制器,设计轻量级并行木马网络,在特定触发条件下篡改控制指令,通过仿真验证攻击有效性。
图上的广义薛定谔桥
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出GSBoG框架,通过似然优化学习图上可控连续时间马尔可夫链策略,满足端点边际分布并优化中间状态成本,实现可扩展的拓扑感知运输。
对比几何学习实现统一的结构与配体药物设计
发表机构 * DeepMind Ltd(DeepMind有限公司)
AI总结 提出对比几何模型ConGLUDe,统一结构与配体训练,实现虚拟筛选、靶标钓鱼和配体条件口袋预测,在多项基准测试中表现优异。
轻量级可解释Transformer:基于混合图算法展开的交通预测
发表机构 * arXiv.org ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出一种通过展开混合图优化算法构建的轻量级可解释类Transformer网络,用于时空交通预测,在保持竞争性能的同时大幅减少参数。
扩展节段间协调定律:对动力假肢控制的启示
发表机构 * Faculty of Mechanical Engineering, Technion – Israel Institute of Technology(机械工程系,技术学院–以色列理工学院)
AI总结 针对下肢截肢者步行代谢成本问题,提出基于节段间协调定律的假肢控制框架,通过分析三维运动学数据扩展出力矩协调定律,并开发了开源工具包。
基于LLM的嵌入:注意力值比隐藏状态更好地编码句子语义
发表机构 * arXiv.org ; cs.CL(计算机语言学)
AI总结 本文提出Value Aggregation方法,利用LLM的注意力值向量而非隐藏状态来生成句子嵌入,在无训练设置下超越现有方法,甚至匹配或超越集成方法MetaEOL。
绿色联邦学习的标准化方法与建议
发表机构 * Children’s National Hospital(儿童医院) ; NVIDIA(英伟达) ; Children’s National Hospital George Washington University(儿童医院乔治华盛顿大学)
AI总结 提出基于NVFlare和CodeCarbon的联邦学习碳核算方法,通过实验验证系统慢速和协调效应可显著增加碳排放,强调标准化碳核算对可复现绿色FL评估的必要性。
测量塑性:面向视觉-语言模型的传感器级自适应
发表机构 * arXiv.org ; University of Seoul(首尔大学)
AI总结 提出多视角物理提示(MVP)用于测试时自适应,通过将相机曝光三角(ISO、快门速度、光圈)作为物理提示,在传感器层面进行自适应,无需梯度或模型修改,在ImageNet-ES上优于数字方法。
语言模型电路在神经元基上是稀疏的
发表机构 * Stanford University(斯坦福大学)
AI总结 本文实证发现MLP神经元与稀疏自编码器一样是稀疏特征基,并基于此开发了端到端梯度归因流水线,在多项任务中揭示了因果有效的神经元电路。
ReactEMG 中风:基于表面肌电图的意图检测的健康到中风少样本适应
发表机构 * Department of Mechanical Engineering, Columbia University in the City of New York(哥伦比亚大学纽约市机械工程系) ; Department of Computer Science, Columbia University in the City of New York(哥伦比亚大学纽约市计算机科学系) ; Department of Rehabilitation and Regenerative Medicine, Columbia University Irving Medical Center(哥伦比亚大学伊文思医疗中心康复与再生医学系)
AI总结 提出一种健康到中风的适应流程,利用大规模健康受试者sEMG预训练模型,仅用少量中风患者数据微调,显著提升意图检测准确率和鲁棒性。
通过序贯蒙特卡洛实现高效随机优化
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 针对梯度难以计算的优化问题,提出用序贯蒙特卡洛(SMC)采样器替代昂贵的内采样循环,实现高效随机优化,并在能量模型奖励调优中验证有效性。
从数字到物理:数字代理作为物理智能的自主教练
发表机构 * School of Artificial Intelligence, Shanghai Jiao Tong University, Shanghai, China(上海交通大学人工智能学院) ; Zhongguancun Academy, Beijing, China(中关村学院) ; School of Integrated Circuits, Shanghai Jiao Tong University, Shanghai, China(上海交通大学集成电路学院) ; School of Computer Science, Shanghai Jiao Tong University, Shanghai, China(上海交通大学计算机科学学院) ; State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University, Beijing, China(北京大学计算机科学学院多媒体信息处理国家重点实验室)
AI总结 提出EmboCoach-Bench基准,评估LLM代理自主设计具身策略的能力,通过迭代调试和优化,代理在平均成功率上超越人工基线26.5%,并具备自我修正能力。
批量校准的置信模糊集:样本外污染下的快速、可处理决策
发表机构 * University of Bristol(布里斯托大学) ; University of Cambridge(剑桥大学) ; University of California, Berkeley(加州大学伯克利分校) ; University of Oxford(牛津大学)
AI总结 提出批量校准置信模糊集,通过分离批量内污染和尾部贡献,得到闭式有限风险目标,转化为线性或二阶锥规划,实现高效鲁棒优化。
AfroScope:研究非洲语言景观的框架
发表机构 * The University of British Columbia(不列颠哥伦比亚大学)
AI总结 提出AfroScope框架,包含覆盖640种语言的数据集和模型套件,通过层次分类和专用嵌入模型解决近亲语言混淆问题,提升宏F1分数1.57点,并分析跨语言迁移和领域效应。