VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving
VLADriveBench:评估自动驾驶VLA中的CoT-动作关系
发表机构 * Uber AV Labs(优步自动驾驶实验室)
AI总结 提出VLADriveBench框架,结合观察指标和CoT干预协议评估VLA模型中思维链与驾驶动作的相关性和因果性,发现不同模型表现差异显著。
VLADriveBench:评估自动驾驶VLA中的CoT-动作关系
发表机构 * Uber AV Labs(优步自动驾驶实验室)
AI总结 提出VLADriveBench框架,结合观察指标和CoT干预协议评估VLA模型中思维链与驾驶动作的相关性和因果性,发现不同模型表现差异显著。
SMSR:针对持久化LLM代理系统中运行时内存投毒的认证防御
AI总结 提出SMSR防御框架,通过写入时HMAC签名和查询时随机化内存消融与基于判决的多数投票,首次为多会话内存投毒攻击提供认证鲁棒性保证。
以部署为中心的评估:预测临床大语言模型系统中的查询级拒绝风险
AI总结 针对临床大语言模型系统,提出基于部署上下文(如提供者类型、科室名称)的预响应分类器,预测用户拒绝风险,AUROC达0.719,并展示其在触发护栏和弃权中的效用。
基于可穿戴传感器数据的2型糖尿病个性化血糖评估:LLM驱动方法
发表机构 * Department of Information Systems and Cybersecurity, The University of Texas at San Antonio(德克萨斯大学圣安东尼奥分校信息系统与网络安全系) ; School of Engineering Medicine, Texas A&M University(德克萨斯农工大学工程医学院) ; Department of Family and Community Medicine, The University of Texas at San Antonio(德克萨斯大学圣安东尼奥分校家庭与社区医学系)
AI总结 提出GlyLLM框架,利用大语言模型整合可穿戴传感器数据和结构化元数据,实现个性化血糖动态建模,在血糖预测和糖尿病分类任务上分别比传统ML方法提升13.66%和13.08%。
随机提议:基于Softmax的局部改进框架用于最大加权匹配
AI总结 提出一种基于softmax偏置采样的随机局部改进算法,实现局部ε-优势,达到期望1/2-ε近似比,时间复杂度为O(m log(1/ε)/p_min),在温和条件下简化为O(m log(1/ε))。
EWAM:一种用于具身智能闭环在线自适应的增强世界动作模型
发表机构 * Astronex Robotics ; Nanjing University of Information Science and Technology(南京信息工程大学)
AI总结 提出EWAM架构,基于冻结的Cosmos3骨干网络,通过四个轻量级神经层实现零样本在线自适应,无需微调或额外演示数据,显著减少新任务布局的部署数据需求。
可观察模式并非解释:潜在推理模型的因果几何分析
发表机构 * Université Grenoble Alpes, CNRS, Grenoble INP, LIG(格勒诺布尔阿尔卑斯大学,法国国家科学研究中心,格勒诺布尔国立理工学院,信息学实验室) ; Université Paris-Saclay(巴黎-萨克雷大学) ; NAVER LABS Europe(NAVER欧洲实验室)
AI总结 本文通过对照实验和因果干预发现,潜在推理模型中的可观察模式(如BFS前沿)在控制组中也出现且不总是因果影响行为,提出潜在思维的使用是分级的,其因果效应集中在低秩方向,几何结构随行为影响增强而更有序。
M*: 一个模块化、可扩展的多模态模型服务系统
发表机构 * Stanford University(斯坦福大学) ; University of Washington(华盛顿大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出M*系统,通过将模型表示为数据流图并引入Walk Graph抽象,支持多模态复合模型的高效服务,在多个任务上降低延迟并提升吞吐量。
预测不等于归因:在基于图的神经营销组合模型中定位解码器旁路
发表机构 * University of California, Irvine(加州大学尔湾分校) ; AdsGency AI
AI总结 针对基于图的神经营销组合模型中预测精度高但归因失败的问题,提出DICE-MMM框架,通过限制解码器通信路径来诊断和定位归因旁路,实验表明低预测误差不能保证归因正确性。
从AGI到ASI
发表机构 * Google DeepMind(谷歌深度思维) ; University of Waterloo(滑铁卢大学) ; Australian National University(澳大利亚国立大学) ; University College London(伦敦大学学院)
AI总结 探讨从人类级通用人工智能到超级智能的转变路径,包括扩展、范式转变、递归改进和多智能体涌现,并分析摩擦与瓶颈。
因果不变性在有限样本设置中对领域适应有多大用处?
发表机构 * Department of Computer Science, ETH Zurich(苏黎世联邦理工学院计算机科学系) ; Causal Artificial Intelligence Lab, Columbia University(哥伦比亚大学因果人工智能实验室) ; Department of Statistics, Columbia University(哥伦比亚大学统计系)
AI总结 研究线性回归中因果不变性如何提升监督领域适应,通过候选预测器的目标风险边界和有限样本估计误差推导匹配上下界,证明当边界足够大时自适应聚合可避免负迁移。
Fed-FBD:用于隔离、隐私和精准遗忘的联邦功能块多样化
发表机构 * University of Wisconsin–Madison(威斯康星大学麦迪逊分校)
AI总结 提出Fed-FBD模块化联邦架构,将ResNet分解为六个功能块并维护颜色变体仓库,实现块级隔离、隐私设计和亚秒级精准遗忘,在多个数据集上以微小精度代价换取安全保障。
分离体上的相离关系演算:有效凸表示、分层保守性与蕴含复杂性
AI总结 研究有限族紧凸体诱导的相离关系,提出有效有理实现定理,证明布尔蕴含的完备性与可判定性,并分析计算复杂性。
Evoflux: 紧凑型智能体的可执行工具工作流的推理时演化
AI总结 提出Evoflux,一种推理时演化搜索方法,通过结构化编辑和执行反馈修复紧凑语言模型的工具工作流,将执行可行性从3%提升至17-24%,优于SFT和ReAct。
基于节点重构的零样本广义图异常检测框架
发表机构 * School of Computing, KAIST(韩国科学技术院计算机学院)
AI总结 提出AlignGAD框架,通过全局统一模块对齐异构特征、聚类模块捕获组级异常模式及节点差异评分模块聚合多视图异常证据,实现零样本跨域图异常检测。
SalArt-VQA: 诊断VLM是否理解生成图像中的显著伪影
AI总结 提出SalArt-VQA基准,通过950张图像和3681道多选题,从检测、定位、空间基础、缺陷识别四方面评估VLM对生成图像伪影的理解,揭示高检测准确率下隐藏的失败模式。
低地球轨道卫星地面站位置的自由布局优化
AI总结 提出SCORE方法,通过两阶段自由布局优化地面站位置,相比差分进化算法减少5倍函数评估次数并提升13%下行吞吐量,相比固定站点方法提升15%总下行量。
CAPED:面向移动GUI代理的上下文感知隐私暴露防御
AI总结 针对移动GUI代理截图上传导致的附带视觉隐私暴露问题,提出上下文感知的预上传暴露控制层CAPED,通过任务需求提取、屏幕上下文隐私先验和UI元素解析,选择性暴露任务所需内容,在保持高任务效用的同时显著降低隐私泄露。
BASENet: 基于频带自适应的跨频带注意力语音增强网络
发表机构 * Thales SIX GTS, FRANCE(泰雷兹SIX GTS公司,法国)
AI总结 提出BASENet,通过Bark尺度划分频带并分配自适应容量编码器,结合跨频带注意力模块,以最少参数实现高PESQ和STOI,适用于资源受限设备。
基于物理信息的神经网络用于化疗药代动力学:基准测试临床估计器并揭示参数可辨识性
AI总结 本研究将物理信息神经网络(PINN)应用于化疗药代动力学,在双室线性模型上匹配临床标准方法,在Michaelis-Menten扩展模型中揭示参数不可辨识性,并通过稀疏组织观测部分恢复可辨识性。
TrajGenAgent: 一种用于人类移动轨迹生成的分层LLM智能体
发表机构 * Emory University(埃默里大学) ; University of Florida(佛罗里达大学)
AI总结 提出TrajGenAgent,一种无需微调的分层LLM智能体框架,通过编排器-工作者两阶段设计生成真实轨迹,在时空保真度、语义一致性和个体行为真实性上优于现有方法。
Amnesia: 一种针对持续学习梦境的重放隐蔽攻击
AI总结 提出Amnesia攻击,通过仅控制重放索引选择,在审计约束下最大化持续学习模型性能下降,揭示了索引级重放控制的威胁。
物理感知辅助损失提升图神经网络可合成性滤波器的分布外泛化能力
AI总结 通过在GNN上添加基于Bertz指数的拓扑复杂度回归和MMFF94力场应变能软惩罚作为辅助损失,在分布外数据上小幅但显著提升了可合成性滤波器的AUC(最高+0.0066)。
nomp: 构建领域特定编译器的框架
AI总结 提出nomp框架,通过基于pragma的编程模型和运行时,利用领域特定优化模式在保持性能与可移植性的同时提高程序员生产力。
MentalMARBERT:面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调
发表机构 * King Abdulaziz University(阿卜杜勒阿齐兹国王大学)
AI总结 针对阿拉伯语社交媒体文本中心理健康障碍检测的方言差异、非正式语言、标注资源有限和类别不平衡问题,提出领域自适应预训练与两阶段微调框架,构建含5万条推文的数据集,MentalMARBERT在宏F1和准确率上分别达到0.861和0.877。
OpenRoundup:通过交互式可视化进行多表数据整理
AI总结 提出OpenRoundup系统,通过交互式可视化支持数据记者无代码整合多张表格,采用模式优先、按需取值范式,并引入急切表合并与声明式词汇(Stack和Pack),复制研究证明其表达能力,部署研究确认对非编程从业者的实用性。
AI增强计算的Token复杂度理论
AI总结 提出Token复杂度作为AI增强计算中查询与响应成本的形式化度量,建立AI-Oracle图灵机框架,证明单调性、凸性、价格敏感性和任务排序的价格相对性等基本定理。
TEDD:不稳定时间特征的鲁棒检测
发表机构 * Feedzai
AI总结 提出TEDD方法,利用回归模型检测导致时间分布变化的特征,无需参数调优,可扩展,能检测数值和类别特征的单变量及多变量漂移。
个体控制障碍函数引导的扩散模型用于安全离线多智能体强化学习
发表机构 * Department of Electrical Engineering and Automation, Aalto University(阿尔托大学电气工程与自动化系) ; School of Computing and Data Science, Xiamen University Malaysia(厦门大学马来西亚分校计算与数据科学学院) ; Department of Computer Science, University of Toronto(多伦多大学计算机科学系)
AI总结 提出一种将神经个体控制障碍函数嵌入扩散模型的离线多智能体强化学习算法,通过逆动力学恢复控制策略,在保证奖励的同时显著提升轨迹生成的安全性。
度量选择胜者:评估选择翻转未见化学空间中药物反应预测的模型排名
AI总结 本研究通过VCPI竞赛数据,发现药物反应预测模型排名随评估指标反转:简单基线在代理指标下胜出,但真实指标下深度模型显著优于线性指纹基线,首次在真实药物化学数据上验证了度量校准效应。