Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training
Common Corpus: 最大的伦理数据集用于LLM预训练
发表机构 * PleIAs
AI总结 本文介绍了Common Corpus,一个最大的开放数据集,用于LLM预训练,该数据集包含大量非受版权或开放许可的数据,涵盖了多种语言和领域,为多语言预训练提供了支持。
Journal ref ICLR 2026 (Oral)
Common Corpus: 最大的伦理数据集用于LLM预训练
发表机构 * PleIAs
AI总结 本文介绍了Common Corpus,一个最大的开放数据集,用于LLM预训练,该数据集包含大量非受版权或开放许可的数据,涵盖了多种语言和领域,为多语言预训练提供了支持。
Journal ref ICLR 2026 (Oral)
从场景级提示生成以角色为中心的对话
发表机构 * University of Maryland at College Park, United States(马里兰大学学院市分校,美国)
AI总结 本研究提出了一种模块化流程,将动作级提示转化为视觉和听觉上一致的对话,丰富了基于场景的故事叙述。通过预训练的视觉-语言编码器提取高级视觉语义,并结合结构化提示引导大型语言模型生成对话。引入递归叙述银行以保持跨场景的上下文和情感一致性,最终生成具有表现力的角色条件语音,产生完整的视听叙事。
Comments Accepted to the 2026 IEEE International Conference on Image Processing (ICIP 2026). 18 pages, 5 figures
基于批评的蒸馏用于通过细化实现稳健推理
发表机构 * University of Chicago, Department of Computer Science(芝加哥大学计算机科学系)
AI总结 该研究提出了一种基于批评的蒸馏方法,通过分离批评消费与批评生成,使模型在细调过程中根据教师的批评来细化错误响应,从而提升推理能力,相比传统蒸馏和Critique Fine-Tuning方法在数学推理基准上表现更优。
Comments Accepted to ICML 2026
GraphPINE: 图重要性传播用于可解释的药物反应预测
发表机构 * Computational Biology Branch, National Library of Medicine(国家医学图书馆计算生物学分支) ; Developmental Therapeutics Branch, National Cancer Institute(国家癌症研究所发育治疗分支)
AI总结 本文提出GraphPINE,一种利用领域特定先验知识初始化节点重要性的图神经网络架构,以提高药物反应预测的可解释性。通过引入重要性传播层,统一更新特征矩阵和节点重要性,并利用基于GNN的图传播来传播特征值,从而实现更有效的特征学习和图表示。
从分数匹配到扩散:在高斯设定下的细粒度误差分析
发表机构 * ENS Paris, PSL, CNRS(巴黎高等师范学院、巴黎综合理工学院、国家科学研究中心) ; Univ. Paris-Saclay, Inria, CEA(巴黎萨克雷大学、法国国家信息与自动化技术研究所、法国原子能委员会)
AI总结 本文研究了在高斯设定下使用扩散采样器时的采样误差,分析了分数匹配和扩散过程中的四个主要误差源,并揭示了数据分布各向异性与端到端采样方法关键参数之间的相互作用。
过度参数化如何影响深度神经网络的机器去学习?
发表机构 * Faculty of Computer and Information Science(计算机与信息科学学院)
AI总结 本文研究了深度神经网络去学习任务中模型参数化水平(即网络宽度)对性能的影响,探讨了不同去学习方法在不同参数化水平、去学习目标(隐私保护或偏见消除)以及是否显式使用被删除示例时的表现差异,发现过度参数化模型在隐私和偏见消除方面表现更优,但会带来一定的泛化能力下降。
场景-动作提示融合用于连贯的文本到视频叙事
发表机构 * University of Maryland at College Park(马里兰大学学院市分校) ; Dolby Laboratories(杜比实验室)
AI总结 本文提出了一种整合场景和动作提示的叙事框架,通过动态启发的提示混合策略,解决文本到视频生成中时间一致性、语义一致性和场景-动作连续性的问题,通过三个关键组件实现了更连贯的视频叙事。
Comments Accepted to the 2026 IEEE International Conference on Image Processing (ICIP 2026). 13 pages, 4 figures
阿拉伯语言及其方言大型语言模型综述
发表机构 * iWAN Research Group(iWAN研究组) ; College of Computer and Information Sciences(计算机与信息科学学院) ; King Saud University(沙特国王大学)
AI总结 本文综述了针对阿拉伯语言及其方言设计的大型语言模型,涵盖关键架构、预训练数据集以及单语、双语和多语模型在下游任务中的性能,同时讨论了阿拉伯LLM的开放性及其对未来研究的挑战与机遇。
Comments Submitted to ACM Transactions on Asian and Low-Resource Language Information Processing
Learn2Decompose: 为高效连续多物体操作规划学习问题分解
发表机构 * Idiap Research Institute(Idiap研究 institute) ; Ecole Polytechnique Fédérale de Lausanne(瑞士联邦理工学院洛桑分校)
AI总结 本文提出了一种高效的任务与运动重计划方法,用于动态环境中连续多物体操作的规划。通过从示范中学习问题分解来加速TAMP求解器,核心方法包括目标分解学习、计算距离学习和物体减少,有效提升了重计划效率。
Comments Extension of RAL version: added PR2 Whole-body kitchen task and detailed discussion on limitations in main text; added pseudocode and robustness analysis of our approach, and formal analysis on why and when task goals are decomposable in appendix
检索增强生成在自然语言处理中的应用:综述
发表机构 * City University of Hong Kong(香港城市大学) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学) ; McGill University, Mila(麦吉尔大学,MILA) ; National Taiwan University(国立台湾大学)
AI总结 本文综述了检索增强生成(RAG)在自然语言处理中的应用,重点探讨了检索器和检索融合技术,提出了新的融合分类,并分析了RAG在不同NLP任务中的应用、评估方法、训练范式以及工业部署中的挑战和未来方向。
Comments Accepted by Artificial Intelligence Review
3DMambaComplete:探索结构状态空间模型用于点云补全
发表机构 * Shanghai Key Laboratory of Data Science, School of Computer Science, Fudan University(复旦大学计算机学院数据科学实验室) ; Department of Information Engineering, The Chinese University of Hong Kong(香港中文大学信息工程系)
AI总结 本文提出3DMambaComplete,一种基于Mamba框架的点云补全网络,通过HyperPoint生成、分散和变形模块有效解决点云补全中的局部细节丢失和计算复杂度问题,实验表明其优于现有方法。
Comments 24 pages, 14 figures, 10 tables
什么真正提升了数学推理:超越纯代码的结构化推理信号
发表机构 * State Key Laboratory of Cognitive Intelligence, University of Science(认知智能国家重点实验室,科学大学) ; Institute of Artificial Intelligence, Hefei Comprehensive National Science Centerce(人工智能研究院,合肥综合性国家科学中心) ; Individual Researcher(个人研究员) ; Zhejiang University, Hangzhou, China(浙江大学,杭州,中国)
AI总结 本文通过控制预训练实验研究代码对推理能力的影响,发现代码主要提升编程能力而非通用推理,且在复杂数学推理中与知识密集型任务竞争,同时结构化推理轨迹(如代码-文本和数学-文本混合)比纯可执行代码更能提升推理能力。
Comments Accepted by ICML 2026, 22 pages, 10 figures
CogScale: 用于序列处理的可扩展基准
发表机构 * Mnemosyne ; Inria(法国国家信息与自动化技术研究所) ; ENS PSL(巴黎社会科学高等学院) ; École normale supérieure (Ulm)(巴黎高等师范学院) ; Bordeaux, France(法国波尔多) ; Paris, France(法国巴黎)
AI总结 本文提出CogScale,一个包含14个可扩展合成任务的基准,用于评估不同架构在不同参数规模下的认知和记忆能力,通过标准化轻量框架加速架构创新验证。
MSAlign: 用于代谢物鉴定的分子和质谱基础模型对齐方法
发表机构 * LTCI, Télécom Paris & CMAP, Ecole Polytechnique, Institut Polytechnique de Paris(LTCI,巴黎电信学院及巴黎高等技术学院的联合机构,CMAP,巴黎高等理工学院,巴黎高等技术学院) ; LTCI, Télécom Paris, Institut Polytechnique de Paris(LTCI,巴黎电信学院,巴黎高等技术学院) ; CEA, INRAE, MetaboHUB, Université Paris-Saclay(CEA,国家核能研究中心,法国农业研究机构,代谢组学枢纽,巴黎萨克雷大学)
AI总结 本研究提出MSAlign方法,通过多模态对齐技术对齐分子和质谱基础模型,以提高代谢物鉴定的准确性,并解决了数据分割策略中的分布偏移问题。
CPC-VAR:视觉自回归模型中的持续个性化与组合生成
发表机构 * Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院) ; Peng Cheng Laboratory(鹏城实验室) ; South China University of Technology(华南理工大学)
AI总结 本文研究了视觉自回归模型中的持续个性化生成问题,提出了一种统一框架,通过梯度基概念神经元选择和上下文感知组合策略,解决了连续单概念学习和多概念合成中的关键挑战,提升了长序列持续个性化和多概念图像合成的性能。
具有记忆增强的强化学习代理的CAD生成
发表机构 * Zhejiang University(浙江大学)
AI总结 本文提出了一种记忆增强的强化学习框架,用于生成CAD模型,通过引入强化学习进行检索和策略优化,有效避免了检索陷阱,提高了复杂CAD模型生成的成功率和几何一致性。
Comments 26 pages; multilingual submission: English version first, followed by Chinese version
车载场景中基于嵌入的异常检测实测
发表机构 * FZI Research Center for Information Technology(FZI信息科技研究中心) ; KIT Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院)
AI总结 本文提出了一种适应性强的实时异常检测方法,利用预训练视觉变换器嵌入来检测潜在异常,通过在潜在语义特征空间中使用最近邻相似性检测偏差,并在真实世界场景中评估了该方法的性能。
Comments Accepted at CVPR 2026 Workshop AUTOPILOT-NA
TERGAD: 用于图异常检测的结构感知文本增强表示
发表机构 * College of Computer Science and Technology, Jilin University(吉林大学计算机科学与技术学院) ; School of Computer Science and Information Technology, Adelaide University(阿德莱德大学计算机科学与信息科技学院) ; School of Computing Technologies, RMIT University(皇家墨尔本理工大学计算技术学院) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算与数据科学学院)
AI总结 本文提出TERGAD,一种通过大语言模型的语义推理能力增强图异常检测的新型数据增强框架,通过将节点拓扑属性转化为描述性自然语言,再结合门控双分支自编码器融合语义嵌入和原始节点属性,从而更有效地检测图中异常实体。
Comments 14 pages, 5 figures
ContextRAG: 无提取的分层图构建用于检索增强生成
发表机构 * HSE University(俄罗斯高等经济大学)
AI总结 本文提出ContextRAG,一种无需大型语言模型提取实体和关系的图检索增强生成系统,通过残差量化k均值和Formal Concept Analysis方法构建模糊概念图,在130个任务的UltraDomain子集中实现了33.6%的F1分数,显著优于传统方法。
Comments Preprint. 6 tables
GeoMamba: 一种基于几何的MambaVision框架及数据集,用于细粒度光学-雷达目标检索
发表机构 * School of Artificial Intelligence, Wuhan University(武汉大学人工智能学院) ; School of Artificial Intelligence and Information Engineering, Zhejiang University of Science & Technology(浙江科技大学人工智能与信息工程学院) ; Hangzhou Institute of Technology, Xidian University(西安电子科技大学杭州研究院) ; State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University(武汉大学测绘遥感信息工程国家重点实验室)
AI总结 本文提出GeoMamba框架,通过引入几何特征注入模块和几何一致性约束模块,提升光学-雷达细粒度目标检索的鲁棒性,并构建了新的FGOS-as数据集来评估跨模态检索性能。
Aero-World: 从惯性控制生成动作条件的空中视频
发表机构 * Institute of Artificial Intelligence, University of Central Florida(中央佛罗里达大学人工智能研究所)
AI总结 本文提出Aero-World,一种将预训练图像到视频扩散模型转换为可控空中视频生成器的方法,通过注入加速度和角速度序列,利用冻结的物理探测器提供惯性一致性监督,从而提高生成视频对低级动作信号的符合度和时间稳定性。
Tango3D: 向全局和局部2D-3D对应关系对齐迈进
发表机构 * HKUST(香港科技大学) ; Tencent Hunyuan(腾讯混元)
AI总结 本文提出Tango3D,一种统一密集对应和全局检索的3D基础模型,通过几何感知的2D视觉骨干网络和预训练的3D VAE将图像编码为2D片段,点云编码为3D标记,并映射到共享空间以实现局部像素-点对齐和全局语义对齐。
通过块近似稀疏注意力实现扩散语言模型的高效长上下文建模
发表机构 * The Hong Kong University of Science and Technology(香港科学与技术大学) ; The University of Hong Kong(香港大学) ; Zhejiang University(浙江大学) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 本文提出了一种块近似稀疏注意力框架(BA-Att),通过块级预下采样操作识别信息区域,避免依赖脆弱的位置先验,从而在保持高性能的同时提升计算效率,实验表明其在注意力计算上比FlashAttention快6.95倍,并在50%稀疏度下保持接近全注意力性能。
Comments CVPR 2026 Findings paper
大型语言模型中的数学推理:基准测试、架构、评估与开放挑战
发表机构 * organization= School of Electrical Engineering ; Computer Science, National University of Science ; organization= School of Computing, Data ; Mathematical Sciences, Western Sydney University, Indonesia ; organization= Department of Communication, Quality Management ; Information Systems, Mid Sweden University, Östersund Campus, Sweden
AI总结 本文综述了大型语言模型在数学推理方面的最新进展,通过分析数据集、架构、训练策略和评估协议,探讨了数学推理的基准测试、架构设计、评估方法以及未来的研究挑战。
投影潜在RL动作:面向通用化和可扩展的图组合优化
发表机构 * Université de Lorraine, CNRS, Inria, LORIA(洛林大学、国家科学研究中心、法国国家信息与自动化研究所、LORIA实验室) ; University of California Santa Barbara(加州圣芭芭拉大学) ; Universitat Politècnica de Catalunya(加泰罗尼亚理工大学)
AI总结 本文提出了一种新的RL-GCO方法,通过在连续GNN动作嵌入空间中直接操作,实现高效的图组合优化解算,提升了通用性和可扩展性。
Comments Preprint
CAIT:一种用于儿童-成人互动的句法解析工具包
发表机构 * Center for Language and Cognition (CLCG), University of Groningen(格罗宁根大学语言与认知中心) ; Georgetown University(乔治城大学) ; Computational Linguistics, Department of Linguistics, Bielefeld University(比勒菲尔德大学语言学系计算语言学)
AI总结 本文提出了一种专门针对CHILDES数据的句法解析工具包CAIT,通过训练先进的依赖解析器和标注工具,提升了对儿童-成人互动句法模式的解析精度,适用于语言习得的大规模可重复研究。
物理闭环:一种混合代理架构用于验证的CAD工程设计
发表机构 * Dresden University of Technology(德累斯顿技术大学) ; MAN Truck & Bus SE(MAN卡车与巴士股份有限公司) ; German Research Center for Artificial Intelligence(德国人工智能研究中心) ; RPTU Kaiserslautern-Landau(凯撒斯劳滕-兰道大学)
AI总结 本文提出了一种混合代理-物理架构,通过将经过验证的知识工程工具直接嵌入到自主AI代理的决策循环中,以解决大型语言模型在生成CAD设计时缺乏物理理解的问题。该方法通过显式的物理验证指导闭环、顺序决策过程,提高了生成CAD设计的物理正确性。
Comments Accepted in IJCAI-ECAI 2026 (Special Track on AI4Tech)
基于大型语言模型的阿拉伯语金融情绪分析:来自沙特市场的证据
发表机构 * George Mason University(乔治·马歇尔大学) ; Damascus University(大马士革大学) ; University of Jeddah(朱德赫大学) ; City, St George's, University of London(伦敦城市大学)
AI总结 本文提出了一种针对沙特市场的阿拉伯语NLP框架,用于大规模金融情绪分析,结合官方财务新闻和社会媒体数据,通过多阶段流程构建阿拉伯语财务语料库,并利用Transformer-based NER和定制公司词典进行情绪标注,最终实现了对公司层面的情绪聚合和情绪动态分析。
Comments Accepted at the 7th Workshop on Open-Source Arabic Corpora and Processing Tools (OSACT7), co-located with LREC 2026, Palma de Mallorca, Spain, May 2026. ISBN: 978-2-493814-52-4
具有物理信息的模拟框架用于真实声纳图像生成和统计验证
发表机构 * Department of Computational Intelligence, SRM Institute of Science
AI总结 本文提出了一种基于物理的模拟框架ACOUSIM,用于生成真实声纳图像并进行统计验证,通过比较合成与真实声纳图像的统计特性,建立了可重复的分布级基准。
大型语言模型能否可靠地纠正低资源语音识别中的错误?一项考虑数据污染的西弗里西语案例研究
发表机构 * University of Groningen(Groningen大学)
AI总结 本研究探讨了大型语言模型在低资源语言(如西弗里西语)中通过生成性错误纠正(GER)提升语音识别(ASR)性能的效果,发现GER在大多数设置中提升了ASR性能,并通过详细的错误分析揭示了模型的纠正模式。
Comments Submitted to Interspeech 2026