DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents
DynSess:面向角色扮演智能体的动态会话级评估与优化框架
AI总结 提出DynSess统一会话级框架,通过会话级评估(DynSess-Eval)和基于多步前瞻搜索的训练轨迹优化(DSPO/GSRPO),提升角色扮演智能体的长程一致性和交互质量。
DynSess:面向角色扮演智能体的动态会话级评估与优化框架
AI总结 提出DynSess统一会话级框架,通过会话级评估(DynSess-Eval)和基于多步前瞻搜索的训练轨迹优化(DSPO/GSRPO),提升角色扮演智能体的长程一致性和交互质量。
极端动态对称性实现全向多功能机器人
AI总结 本文提出动态对称性概念,通过动态各向同性度量,在超过1000种模拟形态中发现高动态对称性可提升轨迹跟踪、任务成功率、鲁棒性等性能,并开发了Argus球形机器人系列验证近极端动态各向同性带来的全向运动、自适应地形、快速自稳定和抗故障能力。
Comments Published in Science Robotics (2026). Our project website is at:https://generalroboticslab.com/Argus
OpenClawBench: 真实智能体执行轨迹中过程侧异常的基准测试
AI总结 提出OpenClawBench数据集,通过FullTax标注框架量化智能体执行中的过程侧异常,揭示仅基于结果评估的不足。
Comments 37 pages, 1 figure, 43 tables
可证明安全的智能体护栏
AI总结 针对现有语义护栏无法提供确定性安全下界的问题,提出基于逻辑推理基本限制的新安全范式,并引入可执行证明约束动作框架,通过神经符号隔离架构实现零攻击成功率和零误报率。
OmniRetrieval:跨异构知识源的统一检索
AI总结 提出OmniRetrieval框架,通过自然语言查询识别并调度到不同知识源的本地执行引擎,在13个数据集和309个知识库上超越单源基线,实现异构知识源统一检索。
DenseSteer: 引导小型语言模型进行密集数学推理
AI总结 提出DenseSteer,一种无需训练的推理时引导框架,通过调节内部表征向密集推理模式靠拢,提升小型模型在多步数学推理中的准确性。
Comments ICML 2026
等等!有出路:一种预测对话偏离的决策机制
AI总结 提出一种基于前瞻性模拟的延迟决策机制,在预测对话偏离时通过评估紧张时刻的恢复可能性来降低误报率,同时保持预测准确性。
Comments To appear in the Proceedings of ACL 2026
使用AI在教师与学生之间进行结果无关的反馈中介来发现孤立学习者
AI总结 提出一种无需成绩的可解释决策层,通过整合学生困难普遍性、自我报告与观察困难的不一致以及教师未解决关注点三个信号,对课程主题进行优先级排序,以帮助教师及时做出教学决策。
Comments Accepted to HAI-Agency Workshop on Orchestrating Human and AI Agency for Proactive and Reflective Learning
SigmaMedStat: 用于ICU误报减少的时间信号建模
AI总结 提出SigmaMedStat系统,通过将60秒记录分割为6个10秒块并提取连续小波变换尺度图,结合EfficientNet-B0编码器和两层LSTM网络进行时间建模,在PhysioNet/CinC Challenge 2015数据集上实现AUC 0.822,有效降低ICU误报。
Comments Code available at github.com/Arun-K-Ram/sigmamedstat
重新思考文献检索评估:深度研究有帮助,且人类引用列表并非金标准
AI总结 本文通过改进检索流程和检验人类引用列表作为评估目标的可靠性,发现深度研究管道显著提升召回率,而人类引用中仅51%被判定为中等相关以上,建议采用多维度评估。
面向道德的面部年龄估计:无需儿童数据训练的广义零样本基准
AI总结 提出一个广义零样本基准,训练时排除儿童数据,评估模型对未见年龄组的泛化能力,发现所有方法均存在严重性能下降和可见类偏见。
Comments 12 pages; 3 figures; 5 tables
定制课程:通过动态数据-模型兼容性进行以学生为中心的推理蒸馏
AI总结 提出数据-模型兼容性(DMC)指标,通过联合考虑数据质量、相对难度和学生能力来评估数据集对推理蒸馏的适用性,并基于DMC动态选择数据以提升蒸馏性能。
BenchTrace: 用于测试LLM智能体反思能力和受控进化的基准
AI总结 提出BenchTrace基准,通过反思评估和进化评估两个任务,结合失败避免率(FAR)指标,系统评估LLM智能体的自我进化能力,实验发现当前模型在反思诊断和泛化上存在显著瓶颈。
相关性即漏洞:网络检索如何削弱LLM智能体的安全对齐
AI总结 本文提出AgentREVEAL框架,分析检索集成方式和内容属性如何导致LLM智能体安全退化,发现相关性是共同激活条件,并引入HarmURLBench基准。
使用热成像图像进行甲状腺结节分析的方法
AI总结 本文综述了热成像在甲状腺分析中的应用,提出图像采集协议和自主配准方法,并通过特征提取、图像处理和分类方法区分健康与患病患者。
运动引导的稀疏校正实现跨不同显微镜体制的专家级点跟踪
AI总结 提出RIPPLE方法,通过运动引导的稀疏校正,在多种显微镜视频中实现专家级点跟踪,将手动标注工作量减少3至25倍。
GTA:大规模生成面向Web智能体的长程任务
AI总结 提出GTA框架,通过集成爬取、检索式种子生成、上下文内生成和自动质量控制,为Web智能体生成带可执行轨迹的真实长程任务,解决现有基准缺乏过程监督和可扩展性问题。
Comments Published at Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics
朝向心外膜和纵隔脂肪的自动分割:一种使用跨受试者配准和随机森林的多厂商方法
AI总结 提出一种基于跨受试者配准和随机森林的全自动方法,用于分割CT图像中的心外膜和纵隔脂肪,平均准确率达98.4%,Dice相似指数为96.8%。
MetaRanker:用于超透镜图像质量的人机协同主动排序
AI总结 提出MetaRanker框架,通过人机协同主动排序,以语义可解释性为指标评估超透镜图像质量,减少80%人工标注量,并实现与人类评估高度一致的排序。
Comments 12 pages, 6 figures
通过黑盒成员推断审计生成音乐模型中的训练数据
AI总结 本文提出一种黑盒成员推断方法,通过比较候选音频与模型基于其描述生成输出的语义对齐程度,并训练音乐审计器分类成员身份,实现对生成音乐模型训练数据的高精度审计。
Comments The paper has been accepted for presentation at the workshop ArtSec 2026: Workshop on Artwork Security and Provenance in the Age of AI
随机提升:生成随机物理系统轨迹
AI总结 提出随机提升方法,通过为每个状态转换附加独立高维随机标签并学习从当前状态和标签到下一状态的映射,以生成多样化的随机物理系统轨迹。
ReasonOps: 大语言模型推理轨迹的算子分割
AI总结 提出无监督方法ReasonOps,从思维链轨迹中提取7种通用推理算子,揭示模型推理结构并用于模型识别与正确性预测。
当RL抑制自身词汇:在谜题到数学迁移中恢复推理多样性
AI总结 本文提出一种基于可验证奖励的强化学习框架,通过引入新颖性奖励机制恢复被抑制的探索性推理原语,实现从约束满足谜题到数学问题的跨领域迁移,在无需数学数据的情况下将OlymMATH-Hard的pass@32从16%提升至36%。
Comments Preprint
口号还是立场?一种用于中国国企演讲中创业话语测量的轻标签诊断方法
AI总结 本文提出一种轻标签诊断方法,利用同一企业不同演讲者的自然实验,评估词典方法、主题模型和嵌入相似度评分器在测量中国国企演讲中“创业精神”时的有效性,发现零样本大语言模型(Qwen3.5:9b)在区分演讲者身份方面表现最佳。
Comments 15 pages, 2 figures, 7 tables
影响引导的符号回归:基于大语言模型与细粒度反馈的方程搜索科学发现
AI总结 提出影响引导符号回归(IGSR)方法,利用大语言模型生成候选函数并通过细粒度影响分数进行剪枝,结合蒙特卡洛树搜索高效探索组合空间,在多个基准和真实生物数据中发现新关系。
Comments ICML 2026
Paper Agents, Paper Gains: DeFi投资代理的实证分析
AI总结 通过分析1900多个AI加密项目、10个代表性代理和11个Solana代理金库,发现当前DeFi投资代理仍处于早期阶段,存在自主执行证据不足、代币持有者集体亏损、估值与基本面脱节等问题,并提出成熟度框架。
基于生成式机器学习的季节预报概率偏差校正:以北极海冰预测为例
AI总结 本研究提出基于条件变分自编码器的概率后处理框架,通过生成器替代高斯参数化解码器并采用连续排序概率评分优化,有效校正季节预报的系统偏差并提升分辨率与谱能量。
UA-Legal-Bench:评估大语言模型在乌克兰法律推理上的基准
AI总结 针对法律NLP基准以英语为中心的问题,构建了基于乌克兰法院判决的五个任务基准,评估11个LLM,发现少样本提示效果因任务而异,且在不平衡任务中准确率具有误导性。
Comments 13 pages, 5 figures, 4 tables. Data: https://huggingface.co/datasets/overthelex/ua-legal-bench
晚做总比早做好:基于本体后提取校正的神经符号知识图谱构建
AI总结 提出一种神经符号框架,通过后提取校正解决LLM提取知识图谱时的本体不一致问题,减少token使用并提升图谱一致性。
生成图拓扑的进化精炼:一种混合WGAN-GA方法
AI总结 提出一种混合WGAN-GA方法,通过遗传算法精炼GAN生成的图结构,减少度分布和谱分布等偏差,使合成图更接近真实图。
Comments 6 pages, 4 Figures, 4 Tables, IEEE World Congress on Computational Intelligence