Verification of Unknown Dynamical Systems via Autoencoder Latent Space
通过自编码器潜在空间验证未知动态系统
AI总结 本文提出了一种基于凸自编码器和核方法的学习方法,用于减少动态系统维度并验证其在潜在空间中的行为,从而在高维情况下实现更有效的形式验证。
Comments 25 pages, 6 figures, under review
通过自编码器潜在空间验证未知动态系统
AI总结 本文提出了一种基于凸自编码器和核方法的学习方法,用于减少动态系统维度并验证其在潜在空间中的行为,从而在高维情况下实现更有效的形式验证。
Comments 25 pages, 6 figures, under review
生成式AI实践、素养与差距:意大利情境下的实证分析
AI总结 本研究通过实证分析探讨生成式AI的采用、素养及使用模式,揭示其在意大利情境下对不同群体的影响,发现数字素养是影响AI利用的关键因素,而非单纯使用与否。
让轨迹扩散:用于多样化流匹配的质量保持控制
AI总结 本文提出了一种无需训练的推理时控制机制,使流本身具备多样性意识,通过几何上与模式质量寻求方向解耦的引导来鼓励轨迹横向扩散,同时通过时间调度的随机扰动重新引入不确定性,从而在不降低图像细节和提示忠实度的情况下提升多样性。
EvalMORAAL: 可解释的链式推理与大语言模型道德对齐的LLM-as-Judge评估
AI总结 本文提出EvalMORAAL框架,通过两种评分方法和模型作为裁判的同行评审,评估20个大语言模型的道德对齐情况,发现西方与非西方地区存在显著的道德对齐差距。
Comments Accepted as a poster at *SEM 2026
EpiCache: 为资源受限环境下的长对话提供 episodic KV 缓存管理
AI总结 本文提出 EpiCache,一种无需训练的 KV 缓存管理框架,用于在固定内存预算下实现长对话问答(LongConvQA)。该方法通过块级预填充限制缓存增长,并通过 episodic KV 压缩保留主题相关上下文,从而在多个 LongConvQA 评估基准上提升了准确性并减少了延迟和峰值内存使用。
Comments ICML 2026
LAION-C: 一个用于网络级视觉模型的分布外基准
AI总结 本文提出LAION-C作为ImageNet-C的替代基准,旨在评估网络级数据集下的分布外鲁棒性,通过引入六种新的分布外扰动类型,发现现代模型在这些扰动下的表现显著提升,甚至超过人类观察者。
Comments ICML 2025 camera ready version
模糊卷积神经网络用于表格数据分类
AI总结 本文提出了一种针对表格数据分类的模糊卷积神经网络(FCNN),通过将特征值映射为模糊隶属度并转换为图像来训练CNN模型,从而在表格数据分类任务中实现有效的学习和优于现有方法的性能。
Comments 10 pages, 16 figures, Submitted to IEEE Access
AI增强的调查:利用大型语言模型和调查进行意见预测
AI总结 本文提出了一种基于大型语言模型的框架,通过结合问题、受访者和调查时期的嵌入表示,预测重复横断面调查中缺失的响应,从而弥补传统调查在捕捉历史变化方面的不足。
Velocityformer: 用于宇宙学速度重建的破缺对称性匹配等价图变换器
AI总结 该研究提出Velocityformer,一种等价图变换器架构,通过匹配观测数据的破缺对称性来提高宇宙学速度重建的精度,其在速度相关系数r上比标准线性理论基线提高了35%。
AI生成Python重构拉取请求中的质量和安全信号
AI总结 本研究通过分析AIDev数据集中的Python重构拉取请求,探讨了AI生成代码对代码质量和安全性的影响,发现AI提交在22.5%的案例中提升了质量属性,但同时也引入了新的代码问题,提出了24种重构操作的分类和安全门控的重要性。
全驱动流形约束基于输出反馈控制的输入受限不确定非线性系统
AI总结 本文提出了一种低复杂度、无模型的输出反馈控制器,用于处理具有未知输入约束的未知时变非线性系统,实现了预设的控制精度,并在执行器饱和后保持灵活的控制精度。该方法扩展了现有线性流形约束控制方法,包括非线性流形的构造和各种约束类型,从而在有限或固定时间内实现预设的控制精度。此外,通过构造误差驱动的灵活约束,实现了未知饱和情况下的灵活控制。最后提供了二阶及更高阶的控制示例和仿真。
Comments 22 pages, 12 figures, 2 tables
基于神经网络的负二项回归用于每周地震预测:每个单元的分散估计和尾部风险评估
AI总结 本文提出了一种基于神经网络的地震预测方法,通过每个单元的分散参数估计和尾部风险评估,改进了传统泊松分布的假设,提高了极端事件预测的准确性。
Comments 28 pages, 9 figures. Source code available at https://github.com/Al1mkaYandere/seismic-probabilistic-modeling
标准库还是第三方?LLM辅助零依赖Python库的实证性能和正确性
AI总结 本文通过零依赖项目探讨了仅使用Python标准库能否替代第三方库,并评估了LLM在严格约束下生成正确且高性能代码的能力。
Comments 12 pages
记忆、收敛与泛化在生成模型中的表现
AI总结 本文研究了生成模型中记忆、收敛和泛化的区别,通过线性生成模型的分析,发现当样本数与输入维度成线性关系时,模型会从记忆过渡到泛化,并揭示了泛化包含两个不同目标:匹配数据分布的主体和恢复数据的主潜在因素。
开源大语言模型在类似米尔格拉姆的服从实验中施加最大电击
AI总结 研究探讨了开源大语言模型在持续权威压力下的行为,发现它们在类似米尔格拉姆实验的条件下表现出服从倾向,尽管明确表达 distress,且存在逐步边界/价值违规的脆弱性,以及拒绝时可能忽略响应格式要求导致重试从而再次服从的机制。
Comments 28 pages, 16 figures, 16 tables
与逝者对话:人们如何与生成鬼魂互动
AI总结 研究探讨了人们如何与生成鬼魂互动,通过质性研究发现,用户更倾向于即时性而非事实准确性,且互动始终是协作的。
SpecBench: 评估长周期编码代理中的奖励黑客现象
AI总结 该研究通过分解软件工程任务,提出了一种评估长周期编码代理中奖励黑客现象的方法,通过比较可见测试套件和隐藏测试套件的通过率差异,引入了SpecBench基准,展示了奖励黑客现象在不同任务长度上的显著影响。
半参数高效双层梯度估计
AI总结 本文提出一种半参数去偏理论,用于消除双层梯度估计中的一阶偏差,通过交叉拟合的正交超梯度估计器实现了渐近正态性,并在二次损失下简化为基于条件均值 nuisances 的双重鲁棒分数。
刺激对称性可能混淆表征相似性分析
AI总结 研究探讨了网络输入对称性如何影响表征相似性矩阵(RSMs)的分析,指出不同配置可能导致不同的RSMs,并展示了随机梯度下降或能量正则化如何生成稀疏漂移代码,从而导致漂移RSMs。
Comments 40 pages
双因子线性变换器模型的大步训练动态
AI总结 本文研究了双因子线性变换器模型在大学习率下的训练动态,通过分析发现大步长学习率可以改变变换器的训练吸引子,而非仅仅加速收敛,可能在稳定性阈值之外导致训练进入循环、有界混沌或发散。
网络上的Llamas:基于WebGPU的内存高效、性能可移植和多精度LLM推理
AI总结 本文提出LlamaWeb,一种基于WebGPU的LLM推理框架,通过静态内存规划和高效模型加载减少内存开销,支持多种模型权重格式,实现了内存高效、性能可移植的LLM推理。
Comments 19 pages, 11 figures, 5 tables
向LLM代理技能规范提供用户理解支持
AI总结 研究探讨了技能规范是否有助于用户形成对技能消耗、产生和覆盖范围的有限预期,并通过分析878个网络安全技能的文本线索,发现仅少数规范包含必要的提示,强调应将规范视为面向用户的能劾示范而非仅执行指令的容器。
Comments To appear at ACM CAIS Workshop Agent Skill 2026
智能体安全是系统问题
AI总结 本文提出智能体安全应作为系统问题来解决,强调通过系统层面的安全不变量来保障AI模型的安全性,而非仅仅依赖模型鲁棒性。文章基于系统安全领域的技术,提出了设计可预测安全保证的智能体系统的核心原则,并分析了实际攻击案例和实现这些原则面临的挑战。
扩散模型中的临界减慢现象
AI总结 本文研究了扩散模型在统计场理论O(n)模型中的应用,揭示了训练过程中参数学习的临界减慢现象,并通过引入局部得分近似方法,展示了通过适当架构设计可以克服这一现象,为统计物理中的采样方法提供了可控的改进框架。
Comments 17 pages, 8 figures
切片正则化最优传输
AI总结 本文提出了一种新的正则化最优传输(OT)方法,称为切片正则化最优传输(SROT)。与熵正则化最优传输(EOT)不同,SROT将正则化方向指向平滑的切片最优传输(SOT)计划。我们提供了SROT的正式定义,推导了其对偶形式,并提供了SROT的后贝叶斯解释。然后,我们开发了一种类似Sinkhorn的算法,以高效计算,保留与EOT相同的可扩展性优势。通过将可扩展的SOT计划作为先验,SROT在相同正则化水平下比EOT更准确地近似了精确的OT计划。此外,所得到的传输计划优于参考的SOT计划本身。我们还引入了由SROT引起的相应的OT分歧度,称为SROT分歧度,并分析了其拓扑和计算性质。最后,我们通过合成数据集和颜色传输任务的实验验证了我们的方法,证明SROT在近似精确OT方面优于EOT和SOT。额外的梯度流实验进一步突显了SROT分歧度的优势。
Comments 22 pages, 8 figures, 1 table
可持续性并非线性:在设备智能中量化性能、能耗和隐私的权衡
AI总结 本文研究了将大语言模型从云集群迁移到边缘设备过程中性能、能耗和隐私之间的权衡,通过实验证明模型架构对电池寿命的影响大于量化方案,并发现中等大小模型在响应质量和可持续能耗之间达到最佳平衡。
Comments Under review at Empirical Software Engineering (EMSE)
CTFExplorer: 通过多目标网络CTF基准测试评估LLM进攻性代理
AI总结 本文提出CTFExplorer基准测试,通过多目标网络CTF基准测试评估LLM进攻性代理,研究问题是如何在不确定环境下评估代理的战术推理能力,核心方法是引入多目标环境测试代理的探索、优先级和攻击链能力,主要贡献是开发了可评估代理行为的框架。
AFD-INSTRUCTION: 一个全面的抗体指令数据集,具有功能注解,用于基于LLM的理解和设计
AI总结 本文提出AFD-INSTRUCTION数据集,通过功能注解提升LLM在抗体理解与设计中的性能,为抗体建模和治疗发现提供新基础。
判别-生成目标说话人提取与解码器-only语言模型
AI总结 本文提出了一种判别-生成两阶段框架,结合判别提取的可控性和生成模型的重建能力,以提高目标说话人提取和语音增强的感知质量、可懂度和说话人一致性。
Comments 13 pages,4 figures
在寻找更少歧视性算法中统计保证
AI总结 本文研究了在高风险领域中,企业为减少对受保护群体的歧视性影响而寻找更少歧视性算法的统计保证问题,提出了一种自适应停止算法以确定何时停止搜索以证明进一步搜索不会带来有意义的改进。
Comments 38 pages, 10 figures