Under What Conditions Can a Machine Become Genuinely Creative?
机器在何种条件下能够真正具有创造力?
发表机构 * Concordia University(康考迪亚大学)
AI总结 本文基于Designics理论,提出机器真正创造力需满足十个要求,并通过实例论证其计算可行性,同时指出当前生成式AI系统尚不具备真正创造力。
机器在何种条件下能够真正具有创造力?
发表机构 * Concordia University(康考迪亚大学)
AI总结 本文基于Designics理论,提出机器真正创造力需满足十个要求,并通过实例论证其计算可行性,同时指出当前生成式AI系统尚不具备真正创造力。
WHAR Arena: 基准测试高效可穿戴人体活动识别的最新进展
发表机构 * Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; IPAI Foundation gGmbH(IPAI基金会有限责任公司)
AI总结 为解决可穿戴人体活动识别中的可比性危机,构建了包含30个数据集的大规模基准,评估17种架构,发现预测性能趋于饱和,而紧凑模型和随机森林在部署效率上构成帕累托前沿。
基于多模态大语言模型的移动用户体验推理:任务、基准与方法
发表机构 * Ant Group(蚂蚁集团)
AI总结 提出UXBench基准(2000个VQA样本)评估多模态大模型在UI推理上的能力,并设计UI-UX模型,通过奖励路由和不对称过渡奖励机制在UXBench上达到0.7963准确率,超越Claude-4.5-Sonnet。
生成动力学中相变的几何:投影焦散视角
发表机构 * Institute for the Advanced Study of Human Biology, Institute for Advanced Study, Kyoto University(京都大学高等研究院人类生物学高等研究所) ; Graduate School of Engineering, The University of Tokyo(东京大学大学院工学系研究科)
AI总结 本文通过投影焦散几何解释生成动力学中的相变行为,提出临界边界检测器(CBD)诊断分数方向不稳定性,定位模式承诺并支持敏感区域控制。
SICI:一种揭示LLM立场检测中相变的语义-语用复杂度指数
发表机构 * School of Cyber Science and Technology, University of Science and Technology of China(中国科学技术大学网络空间安全学院) ; School of Artificial Intelligence, Shenzhen Technology University(深圳技术大学人工智能学院)
AI总结 提出SICI指数,从七维语义-语用复杂度诊断立场检测难度,揭示LLM错误随复杂度增加从过度归因到集中弃权的相变规律,且干预方法仅沿归因-弃权轴移动而非消除瓶颈。
Transformer引导的图注意力直接心脏网格重建:一种结构数字孪生框架
发表机构 * CAVE Labs, C-IoT, Dept. of CSE, PES University(PES大学计算机科学与工程系C-IoT实验室CAVE实验室) ; C-IoT, Dept. of CSE, PES University(PES大学计算机科学与工程系C-IoT实验室)
AI总结 提出端到端网络,结合3D Swin Transformer和GAT,直接从医学图像生成平滑的心脏表面网格,避免传统后处理,在MM-WHS 2017上实现1.8 mm平均Chamfer距离。
Reddit生物伦理争议中立场检测的上下文感知数据集
发表机构 * School of Cyber Science and Technology, University of Science and Technology of China(中国科学技术大学网络空间安全学院) ; School of Artificial Intelligence, Shenzhen Technology University(深圳技术大学人工智能学院) ; School of Urban Planning and Design, Peking University(北京大学城市规划与设计学院)
AI总结 提出BioStance数据集,包含39,600个Reddit生物伦理讨论中的评论-回复对,覆盖六类争议话题,通过三层立场标注实现高可靠性,支持上下文感知的立场检测研究。
LAUKIN:一个多司法管辖区的普通法合同数据集
发表机构 * Computer Science and Engineering, UNSW, Sydney Australia(新南威尔士大学计算机科学与工程学院) ; Law and Justice, UNSW, Sydney Australia(新南威尔士大学法律与司法学院)
AI总结 针对跨国合同审查需求,构建了包含澳大利亚、英国和印度三地法律条款对的数据集LAUKIN,通过多阶段检索与人工标注实现法律等价性分类,基准测试显示跨司法管辖区分类具有挑战性。
通过贝叶斯商进行损失转移迁移学习
发表机构 * Athena Research Center(雅典娜研究中心) ; Democritus University of Thrace(德谟克利特大学) ; International Hellenic University(国际希腊大学)
AI总结 本文研究数据分布固定但损失函数变化时的损失转移问题,利用贝叶斯商形式化损失的精炼顺序,证明粗损失的最小表示对严格更细的损失不足,并在有限输出对数损失下给出精确量化关系。
Mental-R1:面向心理健康评估的对齐LLM推理
发表机构 * University of Oxford(牛津大学) ; Oxford Suzhou Centre for Advanced Research(牛津大学苏州高等研究院)
AI总结 提出认知相对策略优化(CRPO)框架,通过阶段依赖不确定性建模和熵正则化机制,使LLM推理对齐人类认知过程,在8个心理健康数据集上加权F1平均提升10.4个百分点。
与你合作得更好:将用户修正编译为编码代理的运行时强制
发表机构 * University of Notre Dame(圣母大学) ; IBM Research(IBM研究院) ; Tencent AI Lab(腾讯AI实验室)
AI总结 提出TRACE方法,通过将用户修正编译为原子规则并在运行时强制执行,显著减少编码代理在后续任务中的偏好违反,优于纯记忆方法。
检测学习表示中的解释不充分性:表示警觉性框架
发表机构 * Laboratory of Bioengineering and Nanosciences (LBN), University of Montpellier(蒙彼利埃大学生物工程与纳米科学实验室) ; EuroMov Digital Health in Motion, University of Montpellier, IMT Mines Alès(蒙彼利埃大学EuroMov数字健康运动实验室,IMT阿莱斯矿业学院) ; Certified Sophrologist, Sensorimotor Practice(认证心理放松治疗师,感觉运动实践) ; Emeritus Professor, University of Montpellier(蒙彼利埃大学名誉教授)
AI总结 提出VER框架,通过识别持久残差结构来监测学习表示的充分性,补充传统评估方法。
NTS-CoT: 基于思维链推理减轻大模型新闻时间线摘要中的幻觉
发表机构 * Central South University(中南大学) ; Tsinghua University(清华大学) ; Nanjing University(南京大学) ; Suzhou Aerospace Information Research Institute(苏州空天信息研究院) ; McGill University(麦吉尔大学)
AI总结 针对大模型在新闻时间线摘要中产生内容不忠实和信息遗漏两类幻觉,提出NTS-CoT框架,通过元素思维链、日期选择和因果思维链三个模块有效缓解幻觉,在三个基准上超越现有方法。
重新设计正则化以实现有效的策略平滑
发表机构 * National Institute of Informatics (NII)(国立信息学研究所) ; The Graduate University for Advanced Studies (SOKENDAI)(综合研究大学院大学)
AI总结 针对强化学习中策略平滑问题,本文指出现有正则化实现的理论与实践差异,提出改进方案,在多个任务和算法中实现平滑运动并提升控制性能,并在四足机器人仿真到现实迁移中验证了平滑性对目标速度突变鲁棒性的提升。
路由何时变得可解释?对块注意力残差的因果探针
发表机构 * ETH Zurich(苏黎世联邦理工学院)
AI总结 研究块注意力残差中路由的可解释性,发现仅当路由参与训练时才出现结构化深度路由,且路由权重与因果重要性存在分离,需用因果干预验证。
迭代视觉思维:通过视觉反馈教会视觉语言模型空间自我修正
发表机构 * QpiAI India Pvt. Ltd(QpiAI印度私人有限公司)
AI总结 提出迭代视觉思维(IVT)框架,通过视觉反馈闭环和两阶段训练(SFT+GRPO),使视觉语言模型具备空间自我修正能力,在三个基准上提升指标2.4-3.2个百分点。
TerraBench: 智能体能否对异构地球系统数据进行推理?
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出TerraBench基准,基于TerraAgent框架,通过结合大语言模型规划与科学工具,实现跨网格数据、卫星图像、地理空间和模拟器的交互式推理,包含403个任务和24,500个执行步骤。
HyPE:基于类别感知的超图编码与持久边嵌入用于人物角色对话
发表机构 * Sungkyunkwan University(成均馆大学)
AI总结 提出HyPE框架,通过将人物角色文本解析为四元组并构建超图,利用HyperGCN和持久边嵌入(PEE)编码高阶关系,在PersonaChat上优于句子级池化基线。
重新思考长视频中的RAG:检索什么以及如何使用?
发表机构 * Department of Computer Science, Cranberry-Lemon University(蔓越莓柠檬大学计算机科学系)
AI总结 针对视频检索增强生成中检索粒度单一和基准测试缺陷,提出V-RAGBench基准和CARVE方法,通过分块自适应重排序实现多配置交错证据,显著提升性能。
一种可扩展且轻量级的统一架构用于像素合并图像传感器的去马赛克
发表机构 * Samsung Research Institute Bangalore(三星研究院班加罗尔分院)
AI总结 提出模块化统一架构,通过无学习CFA识别模块和轻量级设计,实现多种像素合并传感器的去马赛克,提升图像质量并降低资源消耗。
皮肤肿瘤皮肤镜图像的级联分类:可控敏感度与外部临床验证
发表机构 * Ivannikov Institute for System Programming of the Russian Academy of Sciences (ISP RAS)(俄罗斯科学院伊万尼科夫系统编程研究所) ; Orel Oncological Dispensary(奥廖尔肿瘤医院)
AI总结 本研究比较了四种深度学习架构在皮肤镜图像分类中的表现,提出一种两阶段级联分类方案,通过可调分诊阈值实现敏感度控制,并在外部临床数据集上验证了泛化差距。
全分布式多视角3D实时跟踪
发表机构 * University of Florida(佛罗里达大学) ; NVIDIA Corporation(英伟达公司)
AI总结 提出MV3DT全分布式框架,通过点对点协作实现实时多视角3D跟踪,无需中央聚合,在WILDTRACK上达到94.3% IDF1和93.3% MOTA,支持100摄像头30 FPS运行。
MiniPIC: 少于100行代码的灵活位置无关缓存
发表机构 * IBM Research(IBM研究院)
AI总结 提出MiniPIC,通过无位置编码KV缓存和用户控制缓存重用原语,在vLLM中实现多种位置无关缓存方法,显著提升预填充吞吐量并降低首个令牌延迟。
选择与改进:理解推理后训练的机制
发表机构 * Microsoft Research NYC(微软研究院纽约) ; UIUC(伊利诺伊大学厄巴纳-香槟分校)
AI总结 通过控制实验揭示强化学习后训练通过策略选择和策略改进两种机制提升推理能力,并指出SFT数据和RL数据的不同作用。
NaturalFlow: 减少同步语音到语音翻译中破坏自然语音流的停顿
发表机构 * IPAI and ECE, Seoul National University(首尔大学IPAI与ECE) ; Department of AI, University of Seoul(首尔市立大学人工智能系)
AI总结 提出一个流畅性感知优化框架,通过利用模型内部信号(如语言多样性和语音时长的时间变异性)最小化块间静音,在同步翻译的低延迟和连续翻译的自然流畅之间找到平衡点。
EvoBrowseComp: 基于演化知识的搜索智能体基准测试
发表机构 * Northeastern University, China(东北大学(中国)) ; Weixin AI, Tencent Inc, China(腾讯微信AI(中国))
AI总结 提出EvoBrowseComp,一个通过实时网络遍历自动生成400道英文和400道中文无污染复杂问题的演化基准,用于评估搜索智能体在动态知识环境中的真实浏览能力。
MP3:面向时空预测的多周期模式预训练
发表机构 * School of Computing and Artificial Intelligence, Southwest Jiaotong University(西南交通大学计算机与人工智能学院) ; Eindhoven University of Technology(埃因霍温理工大学)
AI总结 针对时空数据中短窗口输入导致的时间幻象问题,提出多周期模式预训练插件MP3,通过多周期时间建模、空间建模和跨周期因果交互,提升现有STGNN的预测性能。
G-Long:面向高效长期对话代理的图增强记忆管理
发表机构 * Sungkyunkwan University(成均馆大学)
AI总结 提出G-Long框架,利用微调小语言模型进行结构化三元组提取和关联检索,并引入注意力感知重要性评分机制,在降低计算开销的同时,在响应生成和记忆检索上达到最优性能。
MÖVE:德国公共部门的大语言模型整体基准
发表机构 * Innovations Department, Bundesdruckerei GmbH(德国联邦印钞公司创新部)
AI总结 提出MÖVE基准,从性能和治理两个维度评估39个LLM在德国公共部门的应用,发现无单一模型全面领先,模型大小非质量可靠指标。
PP-OCRv6: 从1.5M到34.5M参数,在OCR任务上超越十亿级视觉语言模型
发表机构 * PaddlePaddle Team, Baidu Inc.(百度公司飞桨团队)
AI总结 提出轻量级OCR系统PP-OCRv6,通过统一MetaFormer架构和结构化重参数化,在服务器到边缘设备上以少数量级参数超越十亿级VLM,中模型识别准确率83.2%,检测Hmean 86.2%。