LiPUP-MA: A Residential Experience-centric Multi-Agent Framework for Living-in-the-loop Participatory Urban Planning
LiPUP-MA:一种以居住体验为中心的循环参与式城市多智能体规划框架
AI总结 提出LiPUP-MA多智能体框架,通过模拟居住生活与体验驱动的计划修订循环,利用基于图的经验库和空间约束技能增强规划器,解决参与式城市规划中经验落地与反馈空间化问题。
LiPUP-MA:一种以居住体验为中心的循环参与式城市多智能体规划框架
AI总结 提出LiPUP-MA多智能体框架,通过模拟居住生活与体验驱动的计划修订循环,利用基于图的经验库和空间约束技能增强规划器,解决参与式城市规划中经验落地与反馈空间化问题。
UltraCUA: 一种具有混合动作的计算机使用智能体基础模型
AI总结 提出UltraCUA基础模型,通过混合动作(融合原始GUI操作与高级工具执行)克服计算机使用智能体仅依赖原始GUI动作的局限性,采用自动化管道、合成数据引擎、混合动作轨迹收集和两阶段训练方法,在OSWorld和WindowsAgentArena上分别实现22%的相对性能提升和21.7%的成功率。
SEAL: 面向知识图谱对话问答的自我演进智能体学习
AI总结 提出SEAL两阶段语义解析框架,通过自我演进智能体学习解决知识图谱对话问答中的指代消解、上下文依赖和复杂逻辑推理问题,在SPICE基准上达到最先进性能。
Comments Accept by NeuroComputing
Athena: 利用数据高效的过程奖励模型增强多模态推理
AI总结 提出 Athena-PRM,一种多模态过程奖励模型,通过利用弱和强完成者之间的预测一致性高效生成高质量过程标签,在仅5000样本下显著提升复杂推理问题的逐步评估性能。
Comments TMLR 2026, https://openreview.net/forum?id=unWmplHccF
独特生活,共享世界:从单个人生视频中学习
AI总结 提出“单个人生”学习范式,利用单个人拍摄的自我中心视频通过多视角自监督学习视觉编码器,发现不同人生训练的模型具有高度对齐的几何理解,且学到的表示可泛化到下游任务,与大量网络数据性能相当。
PRBench:标准化概率鲁棒性基准
AI总结 提出PRBench基准,通过统一评估协议和理论分析,比较对抗训练与概率鲁棒性训练方法在干净准确率、鲁棒性及泛化误差上的表现。
带RL或SFT的Transformer可证明学习稀疏布尔函数,但方式不同
AI总结 本文通过统一分析RL(过程奖励)和SFT微调Transformer学习可递归分解的k-稀疏布尔函数的动态,证明两者都能学习k-PARITY、k-AND、k-OR等函数,但RL同时学习整个CoT链,而SFT逐步学习。
Comments 50 pages, 12 figures
超越语义:无理由中间标记的不合理有效性
AI总结 通过从零训练Transformer模型于形式可验证推理轨迹,发现模型在正确与损坏轨迹上表现相似,且损坏轨迹在分布外任务上泛化更好,挑战了中间标记反映或诱导可预测推理行为的假设。
Comments Published in Transactions on Machine Learning Research (TMLR)
Kandinsky 5.0:图像与视频生成的基础模型系列
AI总结 本文介绍Kandinsky 5.0系列模型,通过多阶段训练、自监督微调和强化学习后训练,实现高分辨率图像和10秒视频的高质量生成。
Comments Website: https://kandinskylab.ai/
Heap定律的二次项修正
AI总结 针对Heap定律在双对数坐标下仍呈轻微凹形的问题,提出二次函数拟合方法,并通过二十部英文小说验证,发现线性系数略大于1、二次系数约为-0.02,且曲率与“伪方差”相关。
Comments 3 figures
CFG-OEC: 带正交误差校正的无分类器引导
AI总结 针对扩散模型中无分类器引导的采样规则与训练目标不匹配导致的误差,提出正交误差校正方法(CFG-OEC)通过减少条件与无条件预测误差的交互项来提升采样质量,并在Stable Diffusion上验证了FID和CLIP分数的改进。
AI驱动的贡献评估与冲突解决:群体工作量调查的框架与设计
AI总结 提出一个AI增强的框架和实现设计,通过整合异构工件并利用大语言模型进行验证和上下文分析,以解决团队中个人贡献的公平评估和冲突解决难题。
Comments 20 pages, 8 figures, 8 tables
一种用于求解带容量约束选址-路径问题的端到端学习方法
AI总结 提出基于深度强化学习与异构查询机制(DRLHQ)的端到端方法,首次将编码器-解码器结构应用于带容量约束的选址-路径问题(CLRP)及其开放变体(OCLRP),通过异构查询注意力机制动态协调选址与路径决策,在合成和基准数据集上优于传统方法和现有DRL基线。
通过折扣强化学习高效推理
AI总结 针对大型推理模型消耗过多token导致计算成本高的问题,提出使用折扣强化学习(解释为小token成本)惩罚推理token,结合Blackwell最优性分析,在保持准确性的同时缩短推理链。
ParsVoice: 面向文本到语音合成的大规模多说话人波斯语语音语料库
AI总结 提出ParsVoice,目前最大的公开波斯语语音-文本语料库,通过可扩展的流水线从长篇有声读物构建高质量数据,用于训练多说话人TTS系统,并验证了其在零样本多说话人TTS中的有效性。
EvoEmo:面向多轮价格谈判中对抗性LLM智能体的进化情感策略
AI总结 提出EvoEmo进化强化学习框架,通过将情感状态转移建模为马尔可夫决策过程并采用种群遗传优化,动态优化多轮谈判中的情感表达,显著提升LLM智能体的谈判成功率、效率和买家节省。
SpaceVista:从毫米到公里的全尺度视觉空间推理
AI总结 本文提出全尺度空间推理解决方案,通过结构化知识系统、尺度感知建模和渐进训练范式,构建SpaceVista-1M数据集(38K视频场景、约1M空间QA对)和SpaceVista-7B模型,在5个基准上展现强泛化能力。
Comments Project Page: https://peiwensun2000.github.io/mm2km/
基于特征解耦与对抗训练的射频指纹识别跨接收机泛化
AI总结 提出一种特征解耦与对抗训练框架,通过分离发射机与接收机特征并抑制接收机信息,解决射频指纹识别中接收机更换导致的性能下降问题。
MATT-CTR:一种模型无关的测试时范式,用于通过置信度引导的推理路径进行CTR预测
AI总结 提出一种模型无关的测试时范式MATT,利用特征组合的置信度分数生成多条推理路径并聚合预测,以缓解低置信度特征对CTR预测的影响。
推理语言模型中的实时进度预测
AI总结 研究通过离散化推理轨迹训练线性探针和微调模型生成0-100%进度估计,实现推理语言模型中的实时进度预测,并在数学推理任务上达到0.161 MAE。
自信号驱动的多LLM辩论以实现高效准确的推理
AI总结 提出一种利用模型级置信度和token级语义焦点两种自信号来自适应引导多LLM辩论过程的方法,在提高准确性的同时减少token消耗。
蒙特卡洛排列搜索
AI总结 提出一种改进GRAVE算法的通用蒙特卡洛树搜索算法MCPS,通过利用路径上所有节点的统计信息,在多种游戏中优于GRAVE,并给出了统计权重公式的数学推导。
关于指令微调大语言模型对长输入中有害句子的敏感性
AI总结 通过构建长输入并系统变化长度、有害比例、显隐性和位置,研究LLM对稀疏嵌入有害句子的敏感性,发现敏感性非单调、随长度下降、早期位置优先、显性危害更易识别。
为了模拟人类语言预测,让大语言模型不那么超人类
AI总结 本文指出大语言模型因超人类预测能力而无法解释人类阅读行为,主张通过模拟人类记忆来改进模型,并提出新实验方向。
Comments Accepted to Trends in Cognitive Sciences
TAG: 切向放大引导用于抗幻觉采样
AI总结 提出一种无需训练、与架构无关的即插即用引导方法TAG,通过放大估计分数的切向分量来纠正采样轨迹,减少语义不一致性并提高保真度。
Comments Accepted to ICML 2026 (Regular)
先规划后行动:面向LLM推理的高层规划引导强化学习
AI总结 提出PTA-GRPO两阶段框架,通过高层规划引导与强化学习联合优化,提升LLM在数学和自然科学推理任务中的准确性和泛化能力。
Comments 19 pages and 5 figures
HiSpec: 分层推测解码用于大语言模型
AI总结 提出HiSpec框架,利用早期退出模型进行低开销中间验证,通过重用键值缓存和隐藏状态提高吞吐量,平均加速1.28倍,最高2.01倍,且不损失准确性。
机器学习研究者关于医学图像分类迁移学习的直觉
AI总结 通过任务调查揭示机器学习从业者选择源数据集的直觉依据,发现选择依赖于任务、社区实践和相似性感知,但相似性与性能并不一致,且缺乏伦理考量。
Comments Under review
当LLM自我基准测试:解构自动评估中的自我偏见
AI总结 研究LLM自动创建基准测试时存在的自我偏见问题,发现测试集生成和评估两个环节均产生偏见,导致模型偏爱自身输出,并提出了多样性指标以部分缓解该偏见。
通过视觉反馈学习具有空间推理能力的 GUI 定位
AI总结 本文提出将 GUI 定位重构为交互式搜索任务,利用多步在线强化学习训练 GUI-Cursor 模型,通过光标视觉反馈提升空间推理能力,在 GUI 定位和代理任务上超越强基线。
Comments Accepted at ICML 2026