AI 大模型
大模型推理能力
大模型数学、逻辑、规划、多步推理和测试时计算能力。
CombEval: A Framework for Evaluating Combinatorial Counting in Large Language Models
CombEval:评估大语言模型中组合计数的框架
专题命中 数学推理 :评估LLM在组合计数问题上的推理能力。
AI总结 提出CombEval动态基准,通过类型化Cofola规范生成组合计数问题,评估11个大语言模型在直接和代码增强设置下的表现,发现模型在有序对象、不可区分元素、相对位置约束和嵌套对象依赖上存在脆弱性。
Comments under review. Code: https://github.com/YuxuZhou-CN/combination-problem-generation
Hard or Just Unreached? Diagnosing the Sampling Blind Spot in Math-Reasoning Difficulty Estimation
困难还是未触及?诊断数学推理难度估计中的采样盲点
专题命中 数学推理 :诊断数学推理难度估计中的采样盲点,提出确定性采样。
AI总结 发现pass@k在数学推理难度估计中存在盲点,通过激活嫁接的确定性采样可恢复10.3-22.9%的零解样本,揭示结构可识别性。
Comments 9 pages of main paper, 4 figures and 5 tables in the main paper, with more in the appendix
Pseudo-Formalization for Automatic Proof Verification
伪形式化用于自动证明验证
专题命中 数学推理 :伪形式化用于自动证明验证
AI总结 本文提出了一种名为伪形式化的证明格式,该格式在保持自然语言灵活性的同时,保留了形式证明的模块性和精确性,通过块验证算法实现了对自然语言证明的高效验证,其在错误发现的精度和召回率上优于现有基线方法。
Comments 31 pages, code available at https://github.com/Slim205/pseudo-formalization