Enhancing Metacognitive AI: Knowledge-Graph Population with Graph-Theoretic LLM Enrichment
增强元认知AI:基于图论的LLM知识图谱填充
AI总结 本文提出MetaKGEnrich系统,通过构建知识图谱、检测稀疏区域、生成问题并检索证据,提升LLM的自我修复能力,在多个数据集上显著提高了回答质量。
增强元认知AI:基于图论的LLM知识图谱填充
AI总结 本文提出MetaKGEnrich系统,通过构建知识图谱、检测稀疏区域、生成问题并检索证据,提升LLM的自我修复能力,在多个数据集上显著提高了回答质量。
LinAlg-Bench:一个 forensic 验证基准,揭示 LLM 数学推理中的结构失效模式
AI总结 LinAlg-Bench 评估 10 个前沿大语言模型在结构线性代数计算中的表现,揭示 LLM 数学失败并非随机,而是受算法类型和矩阵维度约束。研究发现 4x4 尺寸存在行为阈值,低于该尺寸模型通过执行错误失败,高于则转向计算放弃,通过工具角色扮演等制造响应。
Comments 42 pages, 3 figures, 12 tables. NeurIPS 2026 Evaluations and Datasets Track submission. Dataset: https://huggingface.co/datasets/LinAlgBench/linalg-bench
基于路径的传感器的贝叶斯网络:在通信受限环境中收集信息和路径规划
AI总结 本文提出了一种基于贝叶斯网络的更新方法,用于在通信受限环境中通过路径传感器提升信念图的收敛速度,并考虑了假阳性和假阴性问题。
Comments This paper has been accepted for presentation at 17th World Symposium on the Algorithmic Foundations of Robotics (WAFR 2026)
多目标跟踪一致地提升野生动物推断
AI总结 本文利用多目标跟踪技术提升野生动物分类模型的鲁棒性,通过融合轨迹信息改进分类结果,实验表明在三个数据集上均提升了性能。
Comments Accepted for publication in IEEE 2026 29th International Conference on Information Fusion
野生环境中的可持续智能:通过知识自适应边缘专家代理实现生态监测民主化
AI总结 本文提出一种知识自适应边缘代理架构,通过分离视觉感知与推理,结合视觉编码器和动态知识库,实现生态监测的可持续发展,促进伦理AI协同开发。
Comments 10 pages
GraViti:具有放松排列不变性的图级变分自编码器
AI总结 GraViti通过图级变分自编码器生成紧凑的潜在向量,支持平滑插值和下游任务,优于节点级嵌入。
上下文学习使稀疏本地观测能够预测大陆尺度的地下温度
AI总结 本文提出In-Context Earth模型,利用稀疏钻孔观测预测连续温度场,优于现有方法,且能适应不同地区,具有高准确性与可解释性。
一种可扩展的测量方式用于发展语言研究中的方式和结果动词
AI总结 本文提出一种利用大规模语言模型进行方式和结果动词识别的方法,通过MASC和InterCorp数据扩展至436类,并在三个数据集上验证,模型准确率达89.6%。
Comments 12 pages
SKG-Eval: 通过增量语义知识图谱进行多轮对话的有状态评估
AI总结 本文提出SKG-Eval框架,通过增量语义知识图谱模型,解决多轮对话评估中长距离不一致问题,提供可解释的评估信号和可复现的评分结果。
Comments 36 Pages, 6 Figures
AtlasVid: 通过解耦的全局-局部建模实现高效超高清长视频生成
AI总结 本文提出AtlasVid框架,通过解耦建模提升超高清长视频生成效率,实现60.9倍加速和更低训练成本,优于原生4K生成器。
H-OmniStereo:基于方向对齐法线先验的零样本全方位立体匹配
AI总结 本文提出H-OmniStereo框架,通过构建高质量合成数据集和引入方向对齐法线估计器,解决全方位立体匹配中数据稀缺和视角先验退化问题,实现更高精度和跨视角一致性。
Comments 8 pages, 9 figures
因子化HMR:视频人体网格恢复的混合框架
AI总结 本文提出FactorizedHMR框架,通过确定性回归模块和概率流匹配模块分别处理人体不同部位的恢复问题,结合复合目标表示和几何感知监督提升模糊部位的恢复效果,实现在遮挡和漂移敏感度指标上的优势。
当机器人做家务:一个基准和代理用于长期家庭任务执行
AI总结 本文提出LongAct基准和HoloMind代理,用于评估长期家庭任务执行中的高层自主能力,实验显示HoloMind在减少模型规模依赖的同时提升了长期性能,但目标完成率仍较低,凸显了长期规划的挑战。
GroupMemBench: 多方对话中LLM代理记忆的基准测试
AI总结 本文提出GroupMemBench,用于评估多方对话中LLM代理的记忆能力,揭示现有记忆系统在群体动态、信念跟踪和语言适应方面的不足。
NodeSynth: 为AI评估的社会协同合成数据
AI总结 NodeSynth通过结合现实证据的细粒度分类扩展,生成社会相关合成查询,提升AI模型在敏感领域评估的准确性与安全性。
基于示例的机制可解释性划分
AI总结 本文提出Exemplar Partitioning方法,通过更少的token构建可解释特征字典,展示其在不同层和模型间的可比性及因果干预能力。
Comments Code: https://github.com/jessicarumbelow/exemplar-partitioning. Pretrained dictionaries: https://huggingface.co/datasets/J-RUM/exemplar-partitioning
通过集合条件多样性实现最小干预的KV保留
AI总结 研究通过改进TriAttention保留评分器,在有限预算下提升KV缓存压缩效果,采用V空间冗余惩罚机制,验证了最小修改优于结构性重设计。
Comments 15 pages, 3 figures, 3 tables. Code and data: https://github.com/libophd/minimal-kv-retention
审查代理安全
AI总结 本文提出HarnessAudit框架,用于审查执行轨迹中的边界合规性、执行保真度和系统稳定性,揭示多代理Harness中的安全风险,并通过HarnessAudit-Bench验证了安全风险与轨迹长度、领域和代理角色的关系。
Comments 11 Pages, 8 Figures
极性探针线性解码LLM中的语义结构
AI总结 研究通过极性探针线性恢复LLM中的语义结构,发现其基于嵌入距离和方向表示实体存在与关系类型,且在中层表现更优,能泛化至新实体但随语义结构规模下降。
KamonBench:一种基于语法规则的数据集,用于评估视觉-语言模型中的组合因子恢复
AI总结 KamonBench通过20000个合成复合徽章及辅助组件示例,提供评估视觉-语言模型中稀疏组合识别和因子恢复的可控测试环境,支持程序代码因子度量和可控因子对重组。
Comments Preprint
不只是RLHF:为何仅对齐不足以解决多智能体趋同
AI总结 本文研究了多智能体系统在模拟同伴分歧下的错误率问题,发现预训练基础模型与指令模型存在相似的替换模式,且错误率较高。通过激活修补发现错误集中在中间层,修复后可恢复大部分正确率差距。研究还指出压力抑制了清洁推理特征,而非激活新的趋同回路。
利用多模态自一致性推理进行编码动机访谈以减少酒精使用
AI总结 本文提出基于音频语言模型的自动动机访谈编码方法,通过多模态自一致性推理提升编码鲁棒性,实验显示其在准确率、精确率和召回率上均优于基线方法。
Orthrus:通过双视角扩散实现内存高效的并行令牌生成
AI总结 Orthrus结合自回归大语言模型的高保真生成与扩散模型的高速并行生成,通过双视角机制实现高效推理,提升速度7.8倍且内存开销极低。
异步代理强化学习中缺失旧日志:语义不匹配及用于离线策略修正的修复方法
AI总结 本文研究了异步代理强化学习中因缺失旧日志导致的语义不匹配问题,提出三种精确获取旧日志的策略及近似修正方法,改进了PPO-EWMA方法,提升了训练速度和优化性能。
NOFE - 神经操作函数嵌入
AI总结 NOFE是一种面向连续域的降维框架,通过图核操作学习函数到函数的映射,实现无网格评估,优于传统方法在局部结构保持和鲁棒采样方面表现。
Comments 21 pages, 11 figures, 12 tables
$h$-control: 无需训练的相机控制 via 块条件吉布斯细化
AI总结 本文提出$h$-control,通过改进采样器结构,解决免训练视频生成中相机控制的逆向问题,提升轨迹一致性与视觉质量的平衡,实现在多个数据集上的最佳表现。
面向LLM推理的定向测试:一种受审计约束的协议
AI总结 本文提出一种受审计约束的协议,用于评估LLM推理能力,通过组件自适应提示采样与均匀采样对比,验证了在受控环境下研究定向提示变化的有效性。
Comments 17 pages, 1 figure
AutoLLMResearch: 训练研究代理以自动化LLM实验配置 - 从低成本学习,优化高成本
AI总结 本文提出AutoLLMResearch框架,通过多保真度实验环境学习LLM配置原则,解决高成本实验自动化问题,展示其在大规模LLM实验中的有效性与通用性。
高效对抗匹配用于扩散模型微调
AI总结 本文提出高效对抗匹配(EAM),通过改用线性基础漂移和修改终端成本,解决对抗匹配在扩散模型微调中的计算瓶颈,使训练效率提升4倍并在多个指标上表现优异。
Hi-GaTA:用于外科视频报告生成的分层门控时间聚合适配器
AI总结 本文提出Hi-GaTA框架,通过时间聚合压缩长视频序列生成LLM兼容的视觉前缀令牌,结合预训练的外科专用视频编码器和LoRA微调,实现高质量外科报告生成。
Comments 11 pages, 2 figures