Parthenon Law: A Self-Evolving Legal-Agent Framework
Parthenon Law: 一种自我进化的法律智能体框架
发表机构 * tapntell.ai
AI总结 本文提出Parthenon框架,通过分解模型、工具、知识等组件并引入反泄漏学习循环,使法律领域的大语言模型智能体能够从经验中自我进化,显著提升法律事务处理性能。
Parthenon Law: 一种自我进化的法律智能体框架
发表机构 * tapntell.ai
AI总结 本文提出Parthenon框架,通过分解模型、工具、知识等组件并引入反泄漏学习循环,使法律领域的大语言模型智能体能够从经验中自我进化,显著提升法律事务处理性能。
GENEB:为什么基因组模型难以比较
发表机构 * GitHub ; arXiv
AI总结 针对基因组基础模型评估碎片化的问题,提出GENEB基准,通过统一探测协议在100项任务上比较40个模型,揭示模型排名不稳定、规模收益有限等关键发现。
语音大模型推理中的实体绑定失败:诊断与思维链干预
发表机构 * School of Data Science, The Chinese University of Hong Kong, Shenzhen, China(1 数据科学学院,香港中文大学(深圳)) ; ByteDance, China(2 字节跳动,中国)
AI总结 本文通过诊断语音大模型在逻辑推理中的实体绑定失败问题,提出实体感知思维链方法,显著提升推理准确率。
通过部分分解注意力的空间基础概念瓶颈模型
发表机构 * Vector Institute(向量研究所)
AI总结 提出一种部分分解的概念瓶颈模型,通过空间先验约束注意力,在细粒度识别中实现可解释性并提升定位精度。
深度双样本检验的反事实解释
发表机构 * Hasso-Plattner-Institute, University of Potsdam(波茨坦大学洪堡-劳恩堡研究所) ; Hasso Plattner Institute for Digital Health at Mount Sinai Icahn School of Medicine at Mount Sinai(辛辛那提医学院洪堡数字健康研究所)
AI总结 针对深度双样本检验,提出基于扩散自编码器和MMD优化的反事实解释框架,生成样本级编辑以揭示驱动假设拒绝的特征。
大型语言模型中的事实性观点能否被编辑(操纵)?
发表机构 * The Pennsylvania State University(宾夕法尼亚州立大学)
AI总结 提出FOE基准测试,评估当前知识编辑技术对事实性观点(如公众人物立场)的操纵能力,并发现其仅能实现表面修改,无法保持观点与证据的一致性;进而提出自生成证据对齐方法实现观点-证据对齐。
一次凌星足矣:通过EXOVEIL学习恒星行为检测系外行星
发表机构 * SRH Hochschule(SRH 高校)
AI总结 提出EXOVEIL系统,利用Transformer世界模型和自监督学习从原始光变曲线中检测单次凌星事件,在Kepler数据上实现高召回率,并零样本迁移至TESS和PLATO任务。
基于插入生成的变分学习
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出插入过程(IP)模型,通过排列变分推断联合学习插入位置、内容和终止条件,支持变长生成并提升非自回归序列建模质量。
Goal2Pixel: 将目标锚定到像素以实现视觉语言导航
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出Goal2Pixel范式,通过将连续环境中的视觉语言导航(VLN-CE)重新定义为可导航像素锚定,利用图像平面作为统一空间接口,预测可见导航像素并反投影为3D航点,结合可见性感知关键帧记忆和坐标感知辅助损失,在减少VLM调用次数的同时实现竞争性性能。
MPMWorlds: 用于推断和外推物理动力学的物质点法模拟
发表机构 * Cornell University(康奈尔大学)
AI总结 通过构建2D物质点法(MPM)模拟数据集,研究从视频推断物理动力学并外推时间演化的能力,比较代码生成与视频扩散方法的优劣。
通过傅里叶变换和Volterra级数重新审视神经过程
发表机构 * University of Cambridge(剑桥大学)
AI总结 本文利用Volterra展开和集合傅里叶卷积,提出了两种新的条件神经过程模型,解决了现有平移等变神经过程在可解释性和计算效率上的局限性。
以交互为中心的智能:将交互作为共创AI和人机系统中的主要分析单元
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Co-Creative AI Consulting(协同人工智能咨询)
AI总结 本文提出以交互作为主要分析单元,通过分布式认知、具身认知等理论,论证智能涌现于交互动态而非孤立计算,并引入交互中心智能框架。
三角形泼溅SLAM
发表机构 * Software Performance Optimisation Group(软件性能优化组) ; Department of Computing(计算部门)
AI总结 提出首个使用可微三角形作为3D地图表示的密集RGB-D SLAM系统,通过在线可微渲染实现跟踪与建图,并支持实时网格转换与编辑。
基于神经受控微分方程的通用时间序列生成
发表机构 * Heidelberg Institute for Theoretical Studies(海德堡理论研究所) ; IAR, Karlsruhe Institute of Technology(卡尔斯鲁厄技术大学IAR部门) ; Max Planck Institute for Polymer Research(马克斯·普朗克聚合物研究所) ; IWR, Heidelberg University(海德堡大学IWR部门) ; Dept. of Computer Science, University of Toronto(多伦多大学计算机科学系) ; Mathematical Institute, University of Oxford(牛津大学数学研究所) ; Vector Institute, Toronto, Canada(多伦多向量研究所)
AI总结 本文证明结构化线性受控微分方程(SLiCEs)是通用时间序列生成器,并提出生成式SLiCEs(G-SLiCEs)用于路径空间上的流匹配,在概率预测和下流任务中表现优异,尤其适用于不规则网格。
基于深度学习的代数雷诺应力闭合模型用于湍流RANS模拟
发表机构 * Mathematical Institute, University of Oxford(牛津大学数学研究所) ; Aerospace and Mechanical Engineering, University of Notre Dame(诺特丹大学航空航天与机械工程系)
AI总结 提出一种物理驱动的深度学习闭合模型DARSM,通过神经网络映射流动不变量到隐式代数雷诺应力方程中的经验参数,并结合伴随方程实现端到端优化,在方形管道和周期性山丘基准测试中平均速度误差降低2-4倍。
VISTA:面向视觉规格到网页应用编码智能体的端到端基准
发表机构 * University of Arizona(亚利桑那大学) ; Zoom ; Stony Brook University(石溪大学)
AI总结 提出VISTA基准,通过多维度输入条件和评估指标,衡量基于LLM的智能体从视觉规格生成功能完整、视觉一致的网页应用的能力。
计划,而非摆姿势:基于文本对齐的BFM的长复合运动生成
发表机构 * AvaCapo ; Potsdam University(波茨坦大学) ; Applied AI Institute(应用人工智能研究所) ; Computational Imaging Lab(计算成像实验室) ; AXXX ; Innopolis University(因诺波利斯大学)
AI总结 提出Text2BFM框架,通过将自然语言与预训练行为基础模型对齐,在潜在策略空间中实现长复合运动生成,无需端到端运动生成器。
FedBiCross: 医学图像上的个性化一次性联邦学习
发表机构 * School of Computer Science and Engineering, Northwestern Polytechnical University, China(西北工业大学计算机科学与工程学院) ; School of Science and Technology, Hong Kong Metropolitan University, Hong Kong(香港 Metropolitan 大学科学与技术学院) ; Department of Computer Science, Hong Kong Baptist University, Hong Kong(香港 Baptist 大学计算机科学系)
AI总结 提出FedBiCross框架,通过聚类、双层跨簇优化和个性化蒸馏解决非独立同分布数据下一次性联邦学习中知识蒸馏效果差的问题,在四个医学图像数据集上优于现有方法。
HD-Prot:一种使用连续结构令牌进行联合序列-结构建模的蛋白质语言模型
发表机构 * The Hong Kong Polytechnic University(香港理工大学) ; Mohamed bin Zayed University of Artificial Intelligence(马尔代夫人工智能大学)
AI总结 提出HD-Prot,一种混合扩散蛋白质语言模型,通过连续结构令牌将序列pLM扩展为多模态,实现联合序列-结构建模,在多种任务上取得竞争性能。
用于Transformer修补和机制可解释性的连续深度场论
发表机构 * Universidade de Vigo(维戈大学) ; Independent Researcher(独立研究员)
AI总结 本文提出场论框架,将残差流视为深度-标记场,通过局部源插入、灵敏度场预测、经验格林函数响应和伴随变分问题来组织和预测Transformer激活修补干预,并在GPT-2风格自回归Transformer中验证了前向响应理论。
FinSTaR:面向时间序列推理模型的金融推理
发表机构 * LG AI Research(LG人工智能研究)
AI总结 针对时间序列推理模型在金融领域的失效问题,提出基于2x2能力分类法的FinSTaR模型,通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。
基于SMPL骨架的拉班运动描述子的暗示性运动外观不变检测
发表机构 * Sogang University(ソガン大学)
AI总结 提出一种仅基于SMPL骨架轨迹和拉班运动分析描述子的运动分类流程,用于检测暗示性和露骨动作,在四个层级上实现57.3%的四分类准确率。
熵梯度反转:迈向大型推理模型的内部机制
发表机构 * National University of Singapore(新加坡国立大学) ; Renmin University of China(中国人民大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文发现大型推理模型中令牌熵与logit梯度之间的稳健负相关(熵梯度反转),并提出相关性正则化组策略优化(CorR-PO)将其嵌入强化学习奖励正则化,从而提升推理性能。
更多上下文、更大模型还是道德知识?政治文本中施瓦茨价值观检测的系统研究
发表机构 * PRHLT Research Center, Universitat Politècnica de València, Spain(巴塞罗那理工大学研究中心,西班牙 Valencia理工大学) ; School of Science, Engineering and Design, Universidad Europea de Valencia, Spain(Valencia欧洲大学科学、工程与设计学院,西班牙) ; Valencian Graduate School and Research Network of Artificial Intelligence (ValgrAI)(瓦伦西亚人工智能研究生学院与研究网络(ValgrAI))
AI总结 本研究系统比较了上下文范围、检索增强道德知识和模型规模对政治文本中施瓦茨价值观检测的影响,发现全文档上下文和检索知识对监督编码器有效,但对零样本大语言模型帮助有限,且模型扩展不保证性能提升。
VDE Bench: 评估图像编辑模型对视觉文档进行修改的能力
发表机构 * UCAS(中国科学院大学) ; CASIA(中国科学院自动化研究所) ; Tencent(腾讯) ; CMU(卡内基梅隆大学) ; WashU(华盛顿大学) ; SJTU(上海交通大学) ; XDU(北京理工大学)
AI总结 本文提出VDE Bench,一个专门评估图像编辑模型在双语中文-英文和复杂视觉文档编辑任务性能的基准,通过高质量数据集和新的评估框架,系统量化了文本修改的准确性。
ShapeBench: 一种可扩展的基准和诊断套件,用于气动形状优化的标准化评估
发表机构 * Stanford University(斯坦福大学) ; Spinoza Labs(斯皮诺扎实验室)
AI总结 本文提出ShapeBench,一个开源的气动形状优化基准,提供统一的API,涵盖103个任务和八个形状类别,通过验证的代理模型和高保真CFD流程进行系统分析,展示了不同形状类别和问题形式中优化器排名的显著差异,强调了需要更通用方法的必要性。
GEASS: 基于证据适应的门控选择性描述信任机制用于视觉-语言模型
发表机构 * arXiv.org
AI总结 本文提出GEASS,一种无需训练的模块,通过门控、加权和证据标准来决定模型在每个查询中消耗多少描述信息,从而提升视觉-语言模型的准确性。
多令牌残差预测
发表机构 * New York University(纽约大学) ; New York University Shanghai(纽约大学上海) ; Nos Research(Nos研究) ; Modal
AI总结 本文提出了一种轻量级模块Multi-token Residual Prediction,通过利用去噪过程中相邻步骤的logit分布相似性,在单次骨干网络前向传播中实现依赖感知的多令牌去噪,从而在成本较低的情况下提高去噪效率。
攻击第一原理:一种针对二元函数分类器的黑盒、无查询目标模仿攻击
发表机构 * LORIA(洛林信息与自动化研究院) ; University of Arizona(亚利桑那大学)
AI总结 本文提出Kelpie框架,首次在黑盒无查询环境下成功执行针对二元函数分类器的模仿攻击,展示了其在不同模型架构下的有效性,并通过实际案例验证了攻击的可行性,引发对现有机器学习二元函数分类器可靠性和安全性的质疑。
ARROW:增强重放用于鲁棒世界模型
发表机构 * Imam Mohammad Ibn Saud Islamic University (IMSIU)(伊玛姆·穆罕默德·本·沙特伊斯兰大学) ; Monash University(莫纳什大学) ; University of New South Wales, Sydney(新南威尔士大学,悉尼) ; Cerenaut
AI总结 本文提出ARROW算法,一种基于模型的持续强化学习方法,通过高效的重放缓冲区减少灾难性遗忘,提升在无共享结构任务和有共享结构任务中的表现。