HypergraphFormer: Learning Hypergraphs from LLMs for Editable Floor Plan Generation
HypergraphFormer: 从大语言模型中学习超图以实现可编辑的楼层平面图生成
AI总结 提出HypergraphFormer,利用大语言模型学习超图表示来生成楼层平面图,在RPLAN数据集上超越现有方法,并支持任意边界和高度可编辑性。
HypergraphFormer: 从大语言模型中学习超图以实现可编辑的楼层平面图生成
AI总结 提出HypergraphFormer,利用大语言模型学习超图表示来生成楼层平面图,在RPLAN数据集上超越现有方法,并支持任意边界和高度可编辑性。
SRC-Flow:紧凑语义表示实现归一化流用于图像生成
AI总结 提出SRC-Flow,通过语义表示压缩器将高维RAE特征压缩到低维语义空间,降低归一化流建模负担,在ImageNet上实现最优生成质量,同时保持精确似然计算和确定性可逆采样。
变分自编码器中恒定坍缩的单纯形见证证书
AI总结 提出一种基于GMM教师后验和单纯形见证的证书,用于检测和量化VAE编码器均值是否发生输入无关的恒定坍缩,并在MNIST、CIFAR-10和CIFAR-100上验证了方法有效性。
分类问题的神经正切核
AI总结 本文通过识别宽神经网络在分类损失下保持懒惰训练的条件,将神经正切核理论扩展到分类问题,并分析了参数正则化对核常数性的影响以及预测器分布与贝叶斯方法的关系。
Comments Preprint
HL-OutPaint:面向高分辨率长范围视频的粗到细视频外绘
AI总结 提出HL-OutPaint框架,采用粗到细两阶段流程,通过全局-局部帧交换机制构建全局粗引导,实现高分辨率长视频的大空间外推和时空一致生成。
Comments Supplementary material and video included. Project page: https://koyy001.github.io/Publications/hl-outpaint
LiteFrame: 高效视觉编码器解锁视频大语言模型中的帧缩放
AI总结 针对视频大语言模型处理长视频时视觉令牌上下文长度爆炸的问题,提出LiteFrame高效视频编码器,通过压缩令牌蒸馏(CTD)训练框架,使紧凑的学生模型直接预测教师模型的信息密集时空压缩表示,从而在降低35%端到端延迟的同时处理8倍帧数并提升视频理解精度。
Comments Project Page: https://jjihwan.github.io/projects/LiteFrame
通过反事实推理路径减少信用分配方差
AI总结 提出反事实比较框架,通过采样多条推理轨迹并利用差异隐式估计过程级优势,将稀疏终端奖励转化为步骤敏感信号,从而改进大语言模型多步推理的信用分配,并引入隐式行为策略优化(IBPO)提升训练稳定性和性能上限。
光谱先验 vs. 注意力:探究注意力机制在基于脑电图的诊断中的效用
AI总结 本文提出一种基于频带选择的光谱特征构建方法,证明在小型EEG数据集中,传统机器学习模型性能可匹敌或超越SOTA深度学习模型,而注意力机制无法提取稳定的光谱特征。
SurgicalMamba: 具有状态重编程的双路径SSD用于在线手术阶段识别
AI总结 提出SurgicalMamba模型,基于Mamba2的结构化状态空间对偶性(SSD),通过双路径SSD块、强度调制步进和状态重编程三个组件,实现在线手术阶段识别,在多个基准上达到最先进性能。
Comments 28 pages, 7 figures, 10 tables; Code available at https://github.com/sukjuoh/Surgical-Mamba
面向工业视觉检测的架构感知解释审计
AI总结 本文提出一种基于原生读出假设的架构感知解释审计协议,通过扰动实验证明解释方法的忠实度受其与模型原生决策机制的结构距离约束,并揭示忠实度排名是(模型、解释器、扰动算子)三元组的联合属性。
Comments Format update
减少偏差与方差:用于图像聚类的生成语义引导与双层集成
AI总结 提出GSEC框架,通过生成语义引导减少偏差、双层集成学习降低方差,在六个基准数据集上超越18种最新方法。
打破刹车,而非车轮:通过熵最大化实现无目标越狱
AI总结 提出UJEM-KL攻击方法,通过最大化决策令牌的熵来翻转视觉-语言模型的拒绝输出,实现高迁移性的无目标越狱。
Comments Preprint. 17 pages, 8 figures, 6 tables
真实 vs. 半模拟:重新思考治疗效果估计的评估
AI总结 通过大规模实证研究,比较了半模拟基准和真实数据集上使用反事实指标与可观测指标评估治疗效果估计模型的效果,揭示了两种评估体系之间的差距,并发现简单元学习器与强基础模型结合具有竞争力。
使用Ping2Hex方法的整车运输智能卡车匹配
AI总结 提出基于Ping2Hex的智能卡车匹配系统ITM 2.0,通过概率排序和LightGBM模型解决GPS数据中车辆标识缺失导致的匹配问题,显著提升精度和覆盖率。
Comments 12 pages, 10 figures, 8 tables. Accepted at iSCSi 2026 (International Conference on Industry Sciences and Computer Sciences Innovation). To appear in Procedia Computer Science (Elsevier)
E = T*H/(O+B):混合专家生态的无量纲控制参数
AI总结 提出无量纲控制参数E = T*H/(O+B),通过12个控制实验证明E≥0.5可保证混合专家模型无死亡专家,并发现专家复活、正交毒性依赖数据集等六项额外结果。
Comments 12 experiments, 11,000+ training epochs, cross-modal validation (vision + language). Extended version of the Claude-in-the-Loop ecology framework
通过自适应共形语义熵进行LLM不确定性量化
AI总结 提出自适应共形语义熵(ACSE)方法,通过聚类语义熵并自适应调整不确定性分数,结合共形校准实现统计可靠的接受/弃权决策,在多个数据集上优于现有基线。
Comments Accepted for publication in the Proceedings of the 35th International Joint Conference on Artificial Intelligence (IJCAI 2026); 14 Pages
BFORE: 蝴蝶-萤火虫优化的Retinex增强用于低光图像质量提升
AI总结 提出BFORE框架,结合蝴蝶优化算法和萤火虫算法自动搜索最佳Retinex增强参数,最大化高斯自然度评分,显著提升低光图像质量。
NeuroViz:神经网络训练中前向和后向传播的实时交互式可视化
AI总结 提出NeuroViz交互式可视化工具,通过实时展示全连接神经网络训练中的激活值、权重更新和损失变化,以及逐神经元方程,显著提升训练透明度和可解释性。
Comments 9 pages, 4 figures, 6 tables
VILAS:一种集成软抓取的VLA低成本机器人操作架构
AI总结 提出VILAS低成本模块化机器人操作平台,集成软抓取机构,支持端到端VLA策略学习与部署,并在葡萄抓取任务中验证有效性。
卷积与基于Transformer的检测器在番茄种植园杂草检测中的评估
AI总结 本文比较了基于CNN和Transformer的目标检测架构在番茄种植园早期杂草检测中的性能,揭示了效率与上下文建模之间的权衡。
Comments 7 pages, 3 figures, and 1 table
先验无关的鲁棒预测聚合
AI总结 针对未知状态空间和先验的鲁棒预测聚合问题,提出一种显式闭式对数几率聚合器,在线性对数几率空间线性池化预测,并在三种知识体制下给出接近极小极大遗憾的界。
分数排斥蒙特卡洛:面向一般状态空间中具有恒定内存的高效非马尔可夫采样器
AI总结 提出分数排斥蒙特卡洛(SRMC)框架,通过分数评估的运行平均值总结轨迹历史,利用指数分数倾斜构建替代目标,实现恒定内存下的非马尔可夫采样,降低渐近方差并改善模式覆盖。
Comments Accepted at ICML 2026 (Spotlight); GitHub Repo: https://github.com/srmc-project/Score-Repellent-Monte-Carlo
序列级奖励的组内学习设计条件:令牌梯度消除
AI总结 针对大语言模型多步推理中稀疏终端奖励导致的信用分配问题,提出反事实比较框架和隐式行为策略优化(IBPO),通过轨迹差异近似替代决策,将稀疏奖励转化为步骤敏感信号,提升训练稳定性和推理性能。
OASES:面向智能搜索的结果对齐搜索-评估协同训练
AI总结 提出OASES框架,通过结果对齐的过程奖励和搜索-评估协同训练,解决智能搜索中奖励稀疏和过程监督不可靠的问题,在多跳问答基准上优于强强化学习基线。
M2H-MX:用于实时单目3D场景图构建的多任务语义与几何感知
AI总结 提出M2H-MX多任务感知模型,通过注册门控全局上下文和受控跨任务交互的轻量解码器,在严格延迟约束下实现深度与语义预测相互增强,并集成到单目SLAM中,显著提升轨迹精度和地图质量。
Comments 6 pages, 5 figures, 5 tables. Preprint under review
折扣Beta-Bernoulli奖励估计用于基于可验证奖励的样本高效强化学习
AI总结 针对基于可验证奖励的强化学习样本效率低的问题,提出折扣Beta-Bernoulli奖励估计方法,利用历史奖励统计量降低估计方差并避免方差崩溃,在多个推理基准上显著提升性能。
Comments 14 pages, 3 figures
结构抽象作为非平稳语言模型训练的归纳偏置
AI总结 提出抽象增强训练(AAT)方法,通过联合优化具体实例及其结构抽象,减少灾难性干扰并提升关系泛化能力,在非平稳语言模型训练中验证了结构抽象作为稳定学习信号的有效性。
理解与生成相冲突吗?统一多模态模型DPO的诊断研究
AI总结 通过系统实验发现,在统一多模态模型上应用DPO时,生成质量难以对齐,主要原因是理解和生成梯度近乎正交且存在11-14倍的幅度不平衡,源于VQ token数量不对称。
Comments Experiments are inconclusive: The claim that architectures such as Chameleon or Emu would exhibit stronger gradient conflict is not supported by experiments or analysis, and all experiments are conducted on Janus-Pro without evaluation on other unified multimodal architectures
基于YOLO和视觉语言OCR的孟加拉车牌识别鲁棒深度学习框架
AI总结 提出一种结合YOLOv8两阶段自适应训练和ViT+BanglaBERT视觉语言OCR的鲁棒孟加拉车牌识别系统,在车牌定位和字符识别上分别达到97.83%准确率和0.1323字符错误率。
Comments Accepted at the 2026 IEEE International Conference on AI and Data Analytics (ICAD 2026). Final version will appear in IEEE Xplore
Stein变分遍历曲面覆盖与SE(3)约束
AI总结 提出一种基于预条件SE(3) Stein变分梯度下降的采样即优化方法,用于生成满足SE(3)约束的遍历轨迹,实现复杂3D点云曲面的高质量覆盖。