LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning
LLM进化的符号AI规划领域无关启发式
专题命中 规划推理 :LLM进化领域无关启发式,用于符号规划
AI总结 本文使用进化搜索让大语言模型生成领域无关的启发式函数,在未见测试域上超越手工最优启发式,并首次系统评估了启发式的信息性-速度权衡。
Comments Accepted at the LM4Plan workshop at ICAPS 2026
AI 大模型
大模型数学、逻辑、规划、多步推理和测试时计算能力。
LLM进化的符号AI规划领域无关启发式
专题命中 规划推理 :LLM进化领域无关启发式,用于符号规划
AI总结 本文使用进化搜索让大语言模型生成领域无关的启发式函数,在未见测试域上超越手工最优启发式,并首次系统评估了启发式的信息性-速度权衡。
Comments Accepted at the LM4Plan workshop at ICAPS 2026
鲁棒正则化策略迭代在转移不确定性下
发表机构 * College of Computer Science and Technology, Zhejiang University, Hangzhou, China(浙江大学计算机科学与技术学院) ; School of Artificial Intelligence, Optics and Electronics (iOPEN), Northwestern Polytechnical University, Xi'an, China(西北工业大学人工智能、光学与电子学院(iOPEN)) ; School of Software Technology, Zhejiang University, Hangzhou, China(浙江大学软件技术学院) ; School of Software Engineering, Xi'an Jiaotong University, Xi'an, China(西安交通大学软件工程学院) ; School of Systems Science and Engineering, Sun Yat-sen University, Guangzhou, China(中山大学系统科学与工程学院)
专题命中 规划推理 :鲁棒策略迭代用于离线强化学习
AI总结 提出鲁棒正则化策略迭代(RRPI),通过将离线强化学习建模为鲁棒策略优化,使用KL正则化替代难解的双层目标,并基于鲁棒正则化贝尔曼算子实现高效策略迭代,理论保证收敛性,实验在D4RL基准上表现优异。
TopBench:表格问答中隐式预测推理的基准
发表机构 * School of Artificial Intelligence, Nanjing University, China(人工智能学院,南京大学,中国) ; National Key Laboratory for Novel Software Technology, Nanjing University, China(新型软件技术国家重点实验室,南京大学,中国)
专题命中 复杂问题求解 :表格问答中隐式预测推理的基准
AI总结 提出TopBench基准,包含779个样本和四个子任务,评估大语言模型在表格问答中识别隐式预测意图并进行可靠推理的能力,发现当前模型在意图识别上存在困难。
大型音频语言模型中的忠实性研究
发表机构 * Concordia University(康科迪亚大学) ; Mila - Quebec AI Institute(魁北克人工智能研究院) ; Université Laval(拉瓦尔大学) ; Birla Institute of Technology and Science, Pilani(比拉理工学院和科学学院,皮兰尼)
专题命中 复杂问题求解 :研究链式推理的忠实性,涉及推理评估
AI总结 提出系统框架评估大型音频语言模型在推理链忠实性上的表现,定义三个音频忠实性标准,并通过基准测试发现模型推理与音频输入存在脱节。
Comments Accepted to Interspeech 2026
PolyBench:多声部音频中组合推理的基准测试
发表机构 * Harbin University of Science and Technology(哈尔滨理工大学) ; The University of Melbourne(墨尔本大学) ; KAIST(韩国成均馆大学) ; University of Surrey(萨里大学)
专题命中 复杂问题求解 :评估音频大模型的组合推理能力
AI总结 针对多声部音频中组合推理评估缺失的问题,提出PolyBench基准,包含计数、分类、检测、并发和时长估计五个子集,评估发现现有大音频语言模型在多声部场景下性能持续下降。
Comments Accepted by INTERSPEECH 2026
图任务算法推理中Transformer的深度-宽度权衡
发表机构 * Courant Institute of Mathematical Sciences, New York University(纽约大学应用数学科学研究所) ; Google Research(谷歌研究) ; Meta AI ; Bar-Ilan University(巴伊兰大学) ; Department of Bio-Medical Engineering, Edmond J. Safra Center for Bioinformatics, Tel-Aviv University(生物医学工程系,埃德蒙·J·萨法中心,特拉维夫大学) ; Tel Aviv University(特拉维夫大学)
专题命中 复杂问题求解 :研究Transformer在图算法任务中的推理能力。
AI总结 研究Transformer在图算法任务中深度与宽度的权衡,发现线性宽度下常数深度足以解决许多图问题,而某些问题需要二次宽度,实验验证了宽模型在保持精度的同时训练和推理更快。
Comments Updated ISF grant number
复述、奖励、重复:面向叙事理论启发的故事复述的强化学习
发表机构 * University of New South Wales(新南威尔士大学)
专题命中 复杂问题求解 :提升故事复述的逻辑性和合理性
AI总结 提出RRR强化学习框架,结合结构主义叙事学与标量叙事性,通过d-RLAIF从文本特征中获取训练信号,无需参考输出,提升LLM故事复述的逻辑性、合理性和完整性。
Comments 8 Pages, 7 figures
认知增益,偶然成本:多智能体辩论中的不确定性分解用于数学推理
专题命中 数学推理 :多智能体辩论中的数学推理不确定性分解
AI总结 本文提出贝叶斯不确定性分析框架,将多智能体辩论中的预测不确定性分解为认知不确定性和偶然不确定性,并设计不确定性引导的多智能体强化学习算法,在控制偶然成本的同时提升认知增益,从而提高推理准确性和辩论效率。
Comments ICML2026
ASyMOB:代数符号数学运算基准
发表机构 * MIT(麻省理工学院) ; Technion - Israel Institute of Technology(技术学院-以色列理工学院)
专题命中 数学推理 :基准测试评估大模型符号数学推理鲁棒性
AI总结 提出ASyMOB基准,包含35,368个符号数学问题,通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足,并发现LLM与CAS的互补潜力。
Comments Published in ICML2026: https://icml.cc/virtual/2026/poster/63549 Code repository: https://github.com/RamanujanMachine/ASyMOB Complete benchmark dataset: https://huggingface.co/datasets/Shalyt/ASyMOB-Algebraic_Symbolic_Mathematical_Operations_Benchmark
FinSTaR:面向时间序列推理模型的金融推理
发表机构 * LG AI Research(LG人工智能研究)
专题命中 数学推理 :金融时间序列推理,涉及数学推理和链式思维。
AI总结 针对时间序列推理模型在金融领域的失效问题,提出基于2x2能力分类法的FinSTaR模型,通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。
Comments KDD Workshop on SciSoc Agents & LLMs 2026 (Oral Presentation)
知识图谱上具有传递关系的全几何多跳推理
发表机构 * KAUST Center of Excellence for Smart Health (KCSH)(智能健康卓越中心) ; KAUST Center of Excellence for Generative AI(生成人工智能卓越中心)
专题命中 逻辑推理 :知识图谱多跳逻辑推理,几何嵌入方法
AI总结 提出GeometrE方法,将逻辑操作映射为纯几何变换,并引入传递损失函数,在保持可解释性的同时提升多跳推理性能。
Comments Accepted at ESWC 2026
Journal ref The Semantic Web. ESWC 2026. Lecture Notes in Computer Science, vol 16549. Springer, Cham (2026)