Learning Design Skills as Memory Policies for Agentic Photonic Inverse Design
将设计技能学习为记忆策略用于智能光子逆向设计
AI总结 提出SkillPCF闭环智能体框架,通过物理引导的记忆技能库、强化学习技能选择和模拟器接地技能演化,解决光子晶体光纤逆向设计中的知识积累问题,在真实数据集上实现更优的设计质量与效率权衡。
Comments AI4Physics@ICML 2026
将设计技能学习为记忆策略用于智能光子逆向设计
AI总结 提出SkillPCF闭环智能体框架,通过物理引导的记忆技能库、强化学习技能选择和模拟器接地技能演化,解决光子晶体光纤逆向设计中的知识积累问题,在真实数据集上实现更优的设计质量与效率权衡。
Comments AI4Physics@ICML 2026
角色提示何时真正有效?LLM中专家角色注入的检索与度量分析
AI总结 通过对比四种提示条件在1140个开放式问题上的表现,发现角色提示系统性地增加专家深度但降低清晰度,其效果高度依赖于问题类型和领域,且混合检索优于纯嵌入检索。
Comments 6 pages, 2 figures. Submitted for peer review
3DVLA:通过3D空间和实例理解增强视觉-语言-动作模型
AI总结 提出3DVLA框架,通过多视角一致性3D特征编码、实例估计模块和掩码自监督3D编码,解决VLA模型缺乏3D场景理解的问题,在LIBERO-Plus和RoboTwin 2.0上显著提升操作性能。
超越双语迁移:指令微调中的多语言代码切换
AI总结 本研究通过跨四种语言的句子级多语言代码切换指令微调,验证了多语言代码切换能有效提升大语言模型的多语言理解性能,超越了传统双语迁移设置。
马尔可夫边界在表格预测中的好、坏与丑
AI总结 研究马尔可夫边界在表格预测中的实际效用,发现理论上最优的边界在实践中有条件地提升预测性能,但因果发现方法难以实现其潜力。
Comments 11 pages, 9 figures, 2 tables. Preprint
面向双无人机空中操控的进度感知领航-跟随空中对接系统
AI总结 提出一种进度感知的领航-跟随双四旋翼空中对接平台,通过被动磁锁紧模块和阶段管理器实现可靠对接,并基于定量指标进行仿真与实验评估。
Comments This paper has been accepted for publication in the Proceedings of the 2026 IEEE 22nd International Conference on Automation Science and Engineering (CASE 2026), August 17-21, 2026, Shenyang, China
相位条件化模仿学习与自主故障恢复用于鲁棒可变形物体操作
AI总结 提出一种相位条件化、力感知的闭环分层框架,通过FiLM调节的ACT编码器和多模态相位预测器实现自主故障恢复,显著提升可变形物体操作的成功率。
Comments Accepted to IEEE/ASME Transactions on Mechatronics
信息导向的离线到在线强化学习
AI总结 本文提出信息导向采样(IDS)方法,通过条件互信息量化离线数据后的残余不确定性,在离线到在线强化学习中平衡即时遗憾与信息增益,并证明其贝叶斯遗憾界及在偏置残余不确定性场景下的优势。
面向高效长视频推理的语义与视觉证据:HD-EPIC VQA挑战赛的解决方案
AI总结 提出一种统一框架,通过解耦长视频推理为语义证据(粗到细提取全局过程结构)和视觉证据(基于目标的细粒度定位),并采用查询条件证据检索与整合,在HD-EPIC VQA挑战赛中取得竞争性能。
重新思考多模态时间序列预测的后训练方法
AI总结 提出PostTime后训练方法,结合监督微调和基于可验证奖励的强化学习,利用大语言模型根据多模态上下文修正数值时间序列基础模型的预测,显著提升多模态时间序列预测性能。
面向屏幕条件动作预测的架构敏感监督微调:PiSAR基准
AI总结 通过PiSAR基准评估监督微调模型与前沿零样本模型在屏幕锚定行为预测上的性能,发现微调Qwen3-VL-8B-Instruct显著优于前沿基线,而Gemma-4-26B-A4B-IT微调效果不佳,揭示模型与微调方法不匹配问题。
Comments 14 pages, 7 figures, 2 tables. PiSAR corpus and fine-tuned weights are proprietary to AprioriLabs; methodology and recipe released
GDSD:强化学习作为扩散语言模型的引导去噪器自蒸馏
AI总结 提出引导去噪器自蒸馏(GDSD)方法,通过从逆KL正则化强化学习的闭式最优解中导出的优势引导自教师直接蒸馏扩散语言模型的去噪器,避免了ELBO似然代理带来的训练-推理不匹配偏差,在规划、数学和代码基准上显著优于现有方法。
Comments Preprint
重新审视Web智能体的观察缩减:基于轻量级框架的综合评估
AI总结 针对LLM Web智能体中HTML观察过长的问题,提出基于最小失败集(MFS)的轻量级评估框架,通过覆盖率代理指标大幅加速评估,并优化剪枝程序实现2.2-3.1倍延迟降低同时保持84-89%成功率。
Comments 22 pages, 8 figures, 4 tables
对齐但脆弱:通过零阶优化增强LLM安全鲁棒性
AI总结 针对大语言模型安全对齐后易受轻量级后处理(如参数噪声、激活噪声或量化)影响的问题,提出基于零阶优化的混合框架,通过先标准一阶安全对齐再零阶精炼提升鲁棒性,并利用扰动评估估计层鲁棒性敏感性以高效聚焦关键层更新。
EvoMD-LLM:学习反应分子动力学中物种进化的语言
AI总结 提出EvoMD-LLM框架,将反应分子动力学轨迹离散化为符号时间序列,通过时间脚手架机制使自回归大语言模型学习物种组成演化,在多项时间预测任务上优于基线模型,并能生成可解释性预测。
Comments 17 pages, ACL Findings
注意力特征空间中的正交负引导用于文本到图像生成
AI总结 提出一种基于注意力特征空间的正交负引导方法,通过正交化负提示注意力特征与正提示特征并仅减去正交分量,在无需训练的情况下有效抑制不需要的概念,同时保持图像质量和提示对齐。
Comments Preprint
神经缩放定律的优化器依赖性
AI总结 通过随机特征回归实验,发现优化器类型系统性地影响神经缩放定律中的缩放指数α,预条件优化器产生更陡峭的缩放,并提供了光谱诊断预测高级优化器的收益。
TRACER: 用于鲁棒多模态微调的持久正则化
AI总结 提出TRACER方法,通过加权移动平均教师实现持久正则化,解决多模态对比微调中的灾难性遗忘和EMA坍缩问题,提升分布外鲁棒性。
Comments ICML 2026
BrahmicTokenizer-131K:一种可替代o200k_base的印度文字兼容分词器
AI总结 提出BrahmicTokenizer-131K,一种131072词汇量的字节级BPE分词器,通过两阶段改造在保持非印度文字性能的同时,显著提升印度文字的压缩效率。
Comments 24 pages, 15 tables, 3 code listings. Tokenizer artifact, verification scripts, and reproduction code at https://huggingface.co/theschoolofai/BrahmicTokenizer-131K and https://github.com/theschoolofai/BrahmicTokenizer-131K
去中心化LLM驱动的声学机器人协调用于非接触式物体操控
AI总结 提出一种去中心化框架,利用Whisper语音识别和LLM语义解析将自然语言指令转换为多机器人任务计划,实现声学机器人的非接触式物体操控,实验验证了顺序、并行和同步协作任务的有效性。
Comments This paper has been accepted for publication in the Proceedings of the 2026 IEEE 22nd International Conference on Automation Science and Engineering (CASE 2026), August 17-21, 2026, Shenyang, China
SURGENT: 一种跨围手术期工作流程的手术多智能体辅助系统
AI总结 提出SURGENT手术多智能体辅助系统,结合思维树规划器、多科室协作智能体和检索增强推理,通过新型记忆设计管理长期患者病史和短期工作摘要,在五项围手术期任务中优于基线LLM和现有医疗多智能体框架。
Comments preprint
X平台上AI裁员话语中的注意力不对称性:资本与劳动放大的计算分析
AI总结 通过收集X平台推文,使用账户级收集方法发现资本话语的放大效应是劳动话语的3.12倍,经粉丝数标准化后仍存在2.69倍的不对称性,并引入放大比和放大归一化指数作为平台话语不平等的度量指标。
Comments 18 pages, 3 figures, 9 tables
使用并行回火求解整数线性规划
AI总结 提出一种无求解器、基于采样的整数线性规划优化框架,利用局部平衡提议和并行回火技术直接探索离散可行区域,在多个基准上优于或匹敌经典求解器。
Comments Preprint. Code available at https://github.com/ski-sim/ILP-with-ParallelTempering
MiraBench: 评估机器人世界模型中的动作条件可靠性
AI总结 提出MiraBench基准,通过物理一致性、动作跟随保真度和乐观偏差检测三个层次评估机器人世界模型的动作条件可靠性,发现视觉保真度不能反映动作保真度、模型规模扩大不保证动作跟随改善、乐观偏差普遍存在。
扩展单一语义性:从Claude 3 Sonnet中提取可解释特征
AI总结 本研究通过稀疏自编码器从生产级语言模型Claude 3 Sonnet中提取可解释特征,验证了字典学习方法在大规模模型上的可扩展性,并分析了特征的多语言、多模态特性及其对模型行为的因果影响。
PassNet: 为图编译器通生成扩展大型语言模型
AI总结 针对编译器默认优化在长尾子图上性能不佳的问题,提出PassNet生态系统,包含大规模数据集和基准测试,通过微调小模型在少量轨迹上即可接近前沿模型性能。
Comments Code and data available at https://github.com/PaddlePaddle/PassNet
注意力作为上下文经验贝叶斯:通过粒子动力学的两阶段视角
AI总结 本文通过粒子动力学将最小注意力仅变换器解释为两阶段经验贝叶斯过程,揭示了深度和注意力残差的统计角色,并证明无需显式噪声调度即可实现有效去噪。
Comments 52 pages, 5 figures
ConMoE: 通过原型重分配进行专家池整合以实现MoE压缩
AI总结 提出ConMoE,一种无需训练的MoE压缩方法,通过基于校准的贡献和可替换性信号选择保留的专家原型,并确定性重映射原始专家调用,在多个MoE语言模型上匹配或超越强基线。
Comments 12 pages, 3 figures, 5 tables
面向LLM安全评估的问答数据集研究:聚焦非法活动
AI总结 本文通过人工分析AnswerCarefully数据集,提出额外信息、问答示例创建方法和评估准则,用于评估LLM在非法活动方面的安全性。
Comments 10 pages, 1 figure
DMC-CF: 用于因果推理的动态多模态反事实QA基准
AI总结 针对现有因果推理数据集规模有限或基于非真实数据的问题,提出基于真实视频的大规模多模态因果反事实推理基准DMC-CF-Static,并利用动态图干预框架构建动态评估基准DMC-CF-Dynamic,实验表明当前多模态大模型在真实场景下的因果推理能力仍需大幅提升。