GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling
GenesisFunc: 面向准确且泛化的函数调用的多智能体数据生成
AI总结 提出GenesisFunc多智能体自动生成函数调用训练数据,通过多阶段评估保证质量,微调8B模型在域内和域外均优于同类开源模型,性能接近部分API模型。
Comments Accepted by ACL 2026 Main
GenesisFunc: 面向准确且泛化的函数调用的多智能体数据生成
AI总结 提出GenesisFunc多智能体自动生成函数调用训练数据,通过多阶段评估保证质量,微调8B模型在域内和域外均优于同类开源模型,性能接近部分API模型。
Comments Accepted by ACL 2026 Main
评估荷兰语音节划分算法并通过深度学习结合语音和正字法信息提高准确性
AI总结 本研究评估了四种荷兰语音节划分算法的性能,并提出一种结合语音和正字法信息的深度学习模型,实现了99.65%的词准确率,较文献最佳提升0.14%。
Comments Published in CLIN Journal
转录儿童语音:ASR性能与获取可靠正字法转录
AI总结 本研究评估了三种ASR模型家族(Whisper、Parakeet、Wav2Vec2)在荷兰儿童语音数据集上的性能,并提出了一种基于话语级选择的方法,以自动识别高置信度的正确发音,从而减少人工验证需求。
基于Transformer的嵌入在主题连贯性中的比较研究
AI总结 本研究系统比较了七种不同规模的Transformer语言模型(从MiniLM到LLaMA-2)在BERTopic流程中对主题质量的影响,发现模型大小(从2200万到130亿参数)对主题连贯性影响可忽略。
开源安全防护模型基准测试:全面评估
AI总结 本研究对14个开源安全防护模型在8个NIST AI风险框架安全类别上进行全面评估,发现召回率是关键指标,且模型大小与安全检测性能不相关。
微宏检索:减少大语言模型中的长文本幻觉
AI总结 提出微宏检索(M2R)框架,通过宏观检索外部粗粒度证据和微观检索推理中关键信息库,解决长文本生成中关键信息与输出距离过远导致的幻觉问题。
RightNow-Arabic-0.5B-Turbo: 通过词汇注入和边缘优先部署的开源子10亿参数阿拉伯语语言模型
AI总结 针对现有阿拉伯语模型要么是多语言模型对阿拉伯语支持不足,要么是参数过大难以部署的问题,提出基于Qwen2.5-0.5B的518M参数阿拉伯语专用模型RightNow-Arabic-0.5B-Turbo,通过词汇注入、继续预训练和监督微调等方法,在三个阿拉伯语基准上达到35.9%平均准确率,与1.5B模型性能相当,并实现边缘端高效部署。
Comments 12 pages, 7 tables, 4 figures, 1 algorithm. Weights: https://huggingface.co/RightNowAI/RightNow-Arabic-0.5B-Turbo
从语境偏移到风格崩溃:为什么训练目标比规模更重要
AI总结 本文通过分析17个模型(410M-100B+参数)在24个语言探针上的表现,发现指令微调系统会导致语言熵沿语篇和结构维度系统性崩溃,并表明弱干预加剧崩溃而强控制可显著改善,揭示了当前对齐流程在重新分配风格概率质量方面的结构性局限。
Comments 26 pages, 13 tables, 2 figures. Planning to submit to NeurIPS 2026
MechELK:一种用于激发大型语言模型中潜在知识的机制可解释性框架
AI总结 提出MechELK框架,通过定位、验证和激发三个阶段,利用稀疏自编码器特征分析和因果探测等方法,从大型语言模型中提取隐藏知识,在TruthfulQA等基准上平均激发准确率达84.7%。
一种用于类型学控制词汇生成的模块化架构
AI总结 提出模块化框架,通过PHOIBLE音位库、可互换音系语法和Swadesh-Leipzig-Jakarta本体生成音系合理且类型学真实的词汇,实验表明概率语法优于确定性和随机基线。
他们在想什么?LLM中概念的界定、探测与追踪
AI总结 本文提出通过线性探针低成本地检测LLM嵌入中的概念,并展示了概念界定、探针训练与跨上下文追踪的方法,为大规模模型监控奠定基础。
轻量级多模态大语言模型驱动的输电设备经济高效缺陷分级
AI总结 提出基于多模态大语言模型的缺陷分级框架,通过上下文学习最大化商业模型潜力,并利用链式思考问答对微调轻量级模型,实现低成本高精度分级。
Comments 9pages, 6figures
无分辨率依赖的几何参数化与映射神经替代模型:面向空间变化场
AI总结 提出一种无分辨率依赖的神经替代模型,通过多分辨率几何编码和几何感知约束(变分能量、扩散密度均衡、拟共形理论)无监督学习,直接从空间变化参数场预测映射位置,适用于任意结构化或非结构化点集。
ProRL: 通过修正策略梯度估计实现主动推荐的有效强化学习
AI总结 针对主动推荐系统中策略梯度估计存在的长度依赖偏差和高方差问题,提出ProRL框架,通过逐步奖励中心化和位置特定优势估计两个机制修正梯度,显著提升推荐效果。
Comments Accepted in ICML 2026
现在询问,以后使用:评估长期 LLM 代理中的主动性差距
AI总结 针对长期 LLM 代理在跨会话中未能主动获取用户偏好而导致的主动性差距,提出 Ask-to-Remember (ATR) 基准 ATRBench,通过隐藏用户偏好作为真实值来量化该差距,并诊断出获取环节是瓶颈。
AsyncTool: 多任务场景下异步函数调用能力的评估
AI总结 提出AsyncTool基准,通过模拟工具响应延迟的多任务环境,评估基于大语言模型的智能体在异步工具调用中的任务协调与效率。
现代Hopfield网络中的持续学习及其在扩散模型中的应用
AI总结 通过现代Hopfield能量分析扩散模型中的持续学习,证明高能量异常样本更容易被遗忘,并基于能量选择重放样本以缓解遗忘。
ROVER: 面向对象中心视觉证据的路由用于基于多图像推理
AI总结 提出ROVER,一种轻量级可学习插件,通过对象中心差分注意力聚合上下文、蒸馏图像内线索并路由历史感知证据,实现高效全局视觉证据路由,在多图像推理中提升答案和定位精度。
EvoSpec: 通过实时词汇和参数自适应进化推测解码
AI总结 提出EvoSpec框架,通过动态词汇和参数自适应实现推测解码中草稿模型的实时进化,解决静态方法在专业领域和主题切换场景下接受率骤降的问题,在EAGLE-3上实现1.13倍加速并降低27%内存开销。
从自回归到扩散:利用严格因果与弹性视野高效适配大型语言模型
AI总结 提出FLUID框架,通过严格因果对齐和弹性视野机制,将自回归模型高效适配为扩散模型,实现并行文本生成并大幅降低训练成本。
Comments Accepted by ACL 2026
Soro: 一种轻量级塔吉克语基础模型与聊天机器人
AI总结 针对塔吉克斯坦计算和连接受限环境,提出基于Gemma 3的塔吉克语专用对话大语言模型Soro,通过持续预训练和监督微调,在塔吉克语基准测试上显著优于同尺寸基线,并支持量化部署。
利用结构化外部知识增强LLM医学编码
AI总结 提出RAG-Coding方法,通过将ICD表格列表编码为知识图谱并提炼指南摘要,无需训练即可增强LLM的医学编码能力,在MDACE和MDACE-2025数据集上显著优于基线。
SIA: 具有框架与权重更新的自我改进AI
AI总结 提出SIA框架,通过反馈智能体同时更新任务智能体的框架和权重,在三个领域(中国法律罪名分类、GPU内核优化、单细胞RNA去噪)超越仅迭代框架的方法。
ChartAct: 动态图表理解基准
AI总结 提出ChartAct基准,通过收集673个动态图表和1440个问答样本,评估多模态模型在交互式图表理解中的能力,发现现有模型表现有限。
SEEK: 通过自适应分块进行多语言事实核查的语义证据提取
AI总结 提出SEEK框架,通过自适应语义分块构建连贯证据块,并微调多语言大模型,在多语言事实核查中提升宏F1最高达20%。
Slide Deck Q&A 质量保证应用:面向教学问题生成的多阶段流水线
AI总结 提出一个基于Flask的多阶段大语言模型流水线,从PDF幻灯片中提取文本和图像,生成结构化的教学问题集,并通过窗口规划、幻灯片合成、标注和协调四个阶段提高问题质量。
Comments 15 pages, 3 research questions, 1 figure, 1 table, 6 references, 2 appendices
非线性时间序列中的函数值因果影响
AI总结 针对非线性时间序列因果发现中常用标量评分掩盖状态依赖函数效应的问题,提出基于个体条件期望的框架从神经加性向量自回归模型直接估计因果响应函数,揭示标量评分无法区分的多种函数行为。
Comments 26 pages, 6 tables, 8 figures
论归纳偏置在时间序列预训练中的作用:以临床时间序列学习通用表征的案例研究
AI总结 通过PathoFM编码器中心Transformer,结合局部补全、时间连续性和无监督上下文动力学三种互补目标,研究预训练目标中归纳偏置对跨任务类型和受试者迁移的影响,发现动态中心混合目标能产生最平衡的迁移表征。
桥接分类与重建:协同时间序列异常检测
AI总结 提出CoAD框架,通过分类模块生成概率软掩码指导重建模块,协同利用分类与重建范式的互补优势,有效检测细微复杂异常,并在基准数据集上显著优于现有方法。
Comments 15 pages, submitted to KDD 2026
CausaLab:面向AI科学家的交互式因果发现可扩展环境
AI总结 提出CausaLab环境,通过合成实验室任务评估LLM代理在因果发现中的预测准确性与因果机制恢复能力,发现两者存在显著差距。