Competition and Diversity in Generative AI
生成式人工智能中的竞争与多样性
发表机构 * MIT Sloan School of Management & Department of Electrical Engineering and Computer Science(麻省理工学院斯隆管理学院及电气工程与计算机科学系)
AI总结 通过博弈论模型和Scattergories游戏实验,研究竞争如何促使生成式AI模型多样化,缓解同质化,并提升社会福利。
生成式人工智能中的竞争与多样性
发表机构 * MIT Sloan School of Management & Department of Electrical Engineering and Computer Science(麻省理工学院斯隆管理学院及电气工程与计算机科学系)
AI总结 通过博弈论模型和Scattergories游戏实验,研究竞争如何促使生成式AI模型多样化,缓解同质化,并提升社会福利。
主动语义感知
发表机构 * General Robotics, Automation, Sensing and Perception (GRASP) Laboratory(通用机器人、自动化、传感与感知实验室)
AI总结 提出一种基于紧凑多层场景图和大语言模型的主动语义感知方法,用于高效探索未知环境,在仿真和真实机器人上验证了优于现有方法。
WildIFEval: 野外指令遵循
发表机构 * The Hebrew University of Jerusalem(希伯来大学杰里科分校) ; IBM Research(IBM研究院)
AI总结 提出WildIFEval数据集,包含7K条真实用户的多约束指令,用于评估LLM的指令遵循能力,发现所有模型仍有较大改进空间。
GAE: 利用可泛化动作专家释放VLM的物理潜力
发表机构 * arXiv.org ; University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 提出通用动作专家(GAE),通过稀疏几何接口将VLM的高层意图转化为连续动作轨迹,采用动作预训练-点云微调(APPF)方案解耦动作动力学与几何基础,实现跨视觉域、视角和指令的强泛化。
ExPLAIND:统一模型、数据和训练归因以研究模型行为
发表机构 * University of Michigan(密歇根大学)
AI总结 提出ExPLAIND框架,统一归因于模型组件、数据和训练轨迹,支持跨粒度解释,通过梯度路径核和AdamW核机器推导参数级和步骤级影响分数,验证了Transformer的Grokking和EuroLLM预训练中的两阶段动态。
BrainPro:迈向大规模脑状态感知的脑电图表征学习
发表机构 * Nanyang Technological University(南洋理工大学) ; Shanghai Jiao Tong University(上海交通大学) ; Advanced Telecommunications Research Institute International(先进电信研究院) ; Southeast University(东南大学)
AI总结 提出BrainPro模型,通过检索式空间对齐和脑状态解耦模块,学习共享与特定状态表征,在9个公共BCI数据集上取得最优性能。
C-QUERI:国会机构中的问题、交流与回答数据集
发表机构 * School of Computing, Binghamton University(宾夕法尼亚大学布林莫尔分校计算机学院) ; Department of Political Science, Binghamton University(宾夕法尼亚大学布林莫尔分校政治学系)
AI总结 提出从听证会记录中提取问答对的流程,构建108-117届国会委员会听证数据集,分析显示提问者党派可从问题本身预测,为政治话语研究提供框架。
骨架稀疏化和致密化尺度空间
发表机构 * Mathematical Image Analysis Group, Saarland University(萨尔兰大学数学图像分析组) ; Department of Mathematics and Computer Science, Saarland University(萨尔兰大学数学与计算机科学系)
AI总结 提出骨架化尺度空间,通过稀疏化中轴实现形状层次简化,并引入致密化实现从粗到细的逆过程,应用于鲁棒骨架化、形状压缩和增材制造刚度增强。
度量辛条件流匹配用于耗散动力学
发表机构 * Rochester Institute of Technology, Rochester, NY, USA(罗切斯特理工学院) ; Automatic Control Laboratory, ETH Zürich, Switzerland(自动控制实验室)
AI总结 提出度量辛条件流匹配(MCFM)方法,通过将保守-耗散分解融入向量场和结构保持采样器,学习耗散动力学,保证能量单调递减和长期稳定性。
DiffCoord: 分布式多智能体轨迹优化的可微协调
发表机构 * Department of Electrical and Computer Engineering, National University of Singapore(新加坡国立大学电子与计算机工程系)
AI总结 提出DiffCoord框架,将截断ADMM-DDP管道的耦合参数通过端到端元学习联合优化,利用智能体神经网络实现任务自适应,并扩展到不同智能体数量。在协作空中运输系统中验证,相比现有方法将每智能体梯度计算时间减少70%。
GetNetUPAM:生态信息嵌套交叉验证与噪声鲁棒注意力用于海洋生物声学监测
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出GetNetUPAM框架,通过分层嵌套交叉验证保持生态异质性,并集成CBAM空间注意力的ARPA-N网络,在高噪声低信噪比条件下实现鲁棒泛化,在零训练区域将误报率降低约10倍。
Urysohn机器:一种度量-拓扑计算模型
发表机构 * University at Albany, State University of New York(纽约州立大学阿尔巴尼分校)
AI总结 提出Urysohn机器,一种基于度量分离、前沿结构和收缩的分类计算模型,通过Urysohn三元组和分层构造实现分类复杂度度量与可重用推理。
用于大沼泽地水位预测的检索增强基础模型
发表机构 * Florida International University(佛罗里达国际大学) ; Everglades National Park(大沼泽地国家公园)
AI总结 针对大沼泽地水位预测,提出检索增强机制,利用统计相似性或互信息检索历史水文事件,提升预训练时序基础模型的长期预测性能,尤其在极端事件中效果显著。
多语言机器生成文本的作者归属
发表机构 * DIMES Department, University of Calabria(卡利博大学DIMES系) ; Kempelen Institute of Intelligent Technologies(智能技术研究所)
AI总结 提出多语言作者归属问题,研究单语言方法在18种语言和8个生成器上的跨语言迁移能力,发现显著局限。
视觉与视觉-语言应用中的模态感知特征匹配:全面综述
发表机构 * School of Computing and Artificial Intelligence, Jiangxi University of Finance and Economics(江西财经大学计算机与人工智能学院) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算机与数据科学学院) ; School of Computer Science and Informatics, Cardiff University(卡迪夫大学计算机科学与信息学院) ; School of Computing and Communications, Lancaster University(兰卡斯特大学计算机与通讯学院) ; School of Computer Science and Engineering, University of Electronic Science and Technology of China(电子科技大学计算机科学与工程学院) ; Institute for Infocomm Research, Agency for Science, Technology and Research (A*STAR)(新加坡资讯研究院,科技研究局(A*STAR)) ; Department of Automation, Tsinghua University(清华大学自动化系)
AI总结 综述基于模态的特征匹配,涵盖传统手工方法和现代深度学习方法,重点讨论跨RGB、深度、3D点云、LiDAR、医学图像及视觉-语言模态的进展,突出模态感知技术。
从看见到体验:通过强化学习扩展导航基础模型
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Coco Robotics(Coco机器人)
AI总结 提出S2E框架,结合离线视频预训练和模拟环境强化学习,通过锚点引导分布匹配和残差注意力模块,提升导航基础模型的交互性和安全性。
从基准到技能:LLM评估的低秩因子
发表机构 * Bar-Ilan University(巴伊兰大学) ; OriginAI ; Data Science Institute Columbia University(哥伦比亚大学数据科学学院) ; Center for Data Science New York University(纽约大学数据科学中心)
AI总结 通过因子分析发现LLM基准性能矩阵本质低秩,揭示任务冗余,提出基于潜在技能空间的评估框架,用于识别冗余任务、用小任务子集建模新模型和按技能轮廓选模型。
大型语言模型中层级情感组织的涌现
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学) ; University of Washington(华盛顿大学) ; University of Tokyo(东京大学)
AI总结 受情感轮理论启发,分析大型语言模型输出中情感状态间的概率依赖关系,发现模型自然形成与人类心理模型一致的层级情感树,且更大模型发展出更复杂的层级结构,同时揭示社会经济角色在情感识别中的系统性偏差。
元学习变换器以改进上下文泛化
发表机构 * University of Trento, Italy(特伦托大学,意大利) ; Eindhoven University, Netherlands(埃因霍温大学,荷兰) ; University of Doha for Science and Technology, Qatar(多哈科学与技术大学,卡塔尔)
AI总结 提出利用多个小规模领域特定数据集训练上下文学习器,通过元学习提升跨领域泛化能力,并在持续学习和无监督场景下验证其鲁棒性。
DeepONet和S-DeepONet中的单分支与多分支:网络架构遵循多物理系统中的耦合
发表机构 * National Center for Supercomputing Applications, University of Illinois at Urbana-Champaign(国家超级计算应用中心,伊利诺伊大学厄巴纳-香槟分校) ; The Grainger College of Engineering, Mechanical Science and Engineering, University of Illinois at Urbana-Champaign(格拉inger工程学院,机械科学与工程系,伊利诺伊大学厄巴纳-香槟分校) ; The Grainger College of Engineering, Nuclear, Plasma & Radiological Engineering, University of Illinois at Urbana-Champaign(格拉inger工程学院,核物理与辐射工程系,伊利诺伊大学厄巴纳-香槟分校) ; Department of Industrial and Manufacturing Systems Engineering, Kansas State University(工业与制造系统工程系,堪萨斯州立大学) ; Civil and Urban Engineering Department, New York University Abu Dhabi, UAE(土木与城市工程系,纽约大学阿布扎比分校,阿联酋)
AI总结 研究比较单分支与多分支神经算子架构在强耦合多物理系统中的表现,发现单分支网络在紧耦合场景下通过共享潜在表示优于多分支,而多分支适用于解耦或单物理任务,代理模型加速高达1.8×10^4倍。
不可靠数据下的公平性审计有多可靠?
发表机构 * Purdue University(普渡大学)
AI总结 研究受保护标签缺失对公平性缓解审计的影响,提出种子校准压力测试区分缺失效应与随机波动,发现正可用性缺失通常不改变缓解方法效果,但无标签端点表现不同,且阈值优化可能将单轴公平性增益转化为交叉危害。
Periodic-MAE:用于rPPG估计的周期性视频掩码自编码器
发表机构 * Division of Electronics and Information Engineering, Jeonbuk National University, Republic of Korea(电子与信息工程系,全州国立大学)
AI总结 提出Periodic-MAE,一种自监督框架,通过周期性感知掩码和生理频带约束,从无标签面部视频学习可泛化的时空表示,提升远程光电容积描记法(rPPG)估计性能。
傅里叶多分量与多层神经网络:解锁高频潜力
发表机构 * Department of Applied Mathematics(应用数学系) ; Hong Kong Polytechnic University(香港理工大学) ; Department of Mathematics(数学系) ; Duke University(杜克大学) ; Department of Mathematics and Statistics(数学与统计学系) ; Auburn University(阿伯茨伦大学) ; School of Mathematics(数学学院) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出傅里叶多分量与多层神经网络(FMMNN),结合正弦型激活函数与多分量多层结构,通过低秩架构实现指数级函数逼近能力,优化景观优于标准全连接网络,并设计缩放随机初始化方法加速训练,在高频函数逼近任务中取得高精度与良好收敛性。
即插即用图像恢复:随机去噪正则化
发表机构 * arXiv.org ; GitHub
AI总结 提出SNORE框架,仅在适当噪声水平图像上应用去噪器,结合随机正则化与梯度下降求解逆问题,在去模糊和修复任务上达到SOTA。
ReFoCUS: 用于上下文理解的强化引导帧优化
发表机构 * Korea Advanced Institute of Science & Technology(韩国科学技术院) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出ReFoCUS框架,首次将在线策略梯度强化学习集成到视频大语言模型的帧级优化中,通过自回归和查询条件选择架构学习帧选择策略,无需显式帧级监督,提升视频问答推理准确性。
RAGPPI:药物发现中蛋白质-蛋白质相互作用的RAG基准
发表机构 * University of California Los Angeles(加州大学洛杉矶分校) ; Palo Alto High School(帕洛阿尔托高中) ; Amazon AGI(亚马逊人工智能研究院)
AI总结 提出RAGPPI基准,包含4420个问答对,用于评估检索增强生成在药物发现中识别蛋白质-蛋白质相互作用生物学影响的能力。
LLM-ODDR:一种用于联合订单调度和司机重新定位的大语言模型框架
发表机构 * Thrust of Artificial Intelligence, The Hong Kong University of Science and Technology (Guangzhou)(人工智能前沿技术 thrust,香港科学与技术大学(广州)) ; Department of Aeronautical and Aviation Engineering, The Hong Kong Polytechnic University(航空与航空工程系,香港理工大学) ; Research Center for Low Altitude Economy, The Hong Kong Polytechnic University(低空经济研究中心,香港理工大学) ; Department of Computer Science and Engineering, The Hong Kong University of Science and Technology(计算机科学与工程系,香港科学与技术大学) ; Department of Civil and Environmental Engineering, The Hong Kong University of Science and Technology(土木与环境工程系,香港科学与技术大学)
AI总结 提出LLM-ODDR框架,利用大语言模型联合优化网约车订单调度与司机重新定位,通过多目标价值细化、公平感知调度和时空需求感知重定位提升效果、适应性和可解释性。
Prism: 通过GPU内存气球实现经济高效的多LLM服务
发表机构 * UCLA(加州大学洛杉矶分校) ; UC Berkeley(伯克利加州大学) ; Harvard University(哈佛大学) ; CMU(卡内基梅隆大学) ; University of Edinburgh(爱丁堡大学) ; Intel(英特尔) ; Stanford University(斯坦福大学) ; LMSYS(灵州市系统实验室) ; ByteDance(字节跳动) ; Alibaba Cloud(阿里云) ; Tsinghua University(清华大学) ; Novita AI ; Rice University(里士满大学)
AI总结 针对多LLM服务中资源效率低下的问题,提出基于内存气球的内存中心化LLM协同服务框架Prism,统一空间与时间共享,已在10K+ GPU生产环境部署。
水下场景的视觉增强与三维表示:综述
发表机构 * Visual Information Laboratory, University of Bristol(视觉信息实验室,布里斯托尔大学) ; Submerged Resources Center, National Park Service(水下资源中心,国家公园服务) ; Marine Imaging Technologies, LLC(海洋成像技术有限公司) ; Gates Underwater Products, Inc(盖茨水下产品公司) ; Esprit film and television Ltd(Esprit电影和电视有限公司)
AI总结 本文综述了水下视觉增强和三维重建方法,从物理模型到非学习与数据驱动技术(如NeRF和3D高斯溅射),并评估了多种算法在基准数据集上的性能,指出了未来研究方向。
闪电自注意力的几何:可识别性与维度
发表机构 * University of Toronto(多伦多大学) ; Royal Institute of Technology (KTH)(皇家理工学院(KTH))
AI总结 本文利用代数几何工具,分析了无归一化自注意力网络的函数空间几何,给出了深层注意力的可识别性描述并计算了函数空间维度,同时刻画了单层模型的奇异点和边界点,并推测了归一化情形的结果。