arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2512.02791 2026-04-28 cs.CL

Making Dialogue Grounding Data Rich: A Three-Tier Data Synthesis Framework for Generalized Referring Expression Comprehension

Juexi Shao, Siyou Li, Yujian Gan, Chris Madge, Vanja Karan, Massimo Poesio

详情

DOI: 10.1109/ICASSP55912.2026.11462635
Journal ref: ICASSP 2026 - 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2026, pp. 18142-18146

英文摘要

Dialogue-Based Generalized Referring Expression Comprehension (GREC) requires models to ground the expression and unlimited targets in complex visual scenes while resolving coreference across a long dialogue context. However, existing systems struggle under distribution shift between training and evaluation domains, a gap exacerbated by the scarcity of annotated dialogue grounding data. We address this challenge with a three-tier data-synthesis method that balances realism and controllability to produce scalable supervision for dialogue-conditioned grounding. Fine-tuning on the synthesized data yields consistent, substantial improvements over prior approaches across standard evaluation metrics.

URL PDF HTML ☆

赞 0 踩 0

2512.00995 2026-04-28 cs.CV

S2AM3D: Scale-controllable Part Segmentation of 3D Point Clouds

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo

Comments Accepted by CVPR 2026(Oral). Project page:https://sumuru789.github.io/S2AM3D-website/

2511.17183 2026-04-28 cs.CV cs.CY

Learning Under Low Illumination: A Dataset and Algorithm for Traffic Sign Recognition

Aditya Mishra, Akshay Agarwal, Haroon Lone

2511.17092 2026-04-28 cs.CV

SPAGS: Sparse-View Articulated Object Reconstruction from Single State via Planar Gaussian Splatting

Di Wu, Liu Liu, Xueyu Yuan, Wenxiao Chen, Lijun Yue, Liuzhu Chen, Yiming Tang, Meng Wang

Comments 10 pages, 7 figures

2511.13312 2026-04-28 cs.RO cs.AI cs.LG

EL3DD: Extended Latent 3D Diffusion for Language Conditioned Multitask Manipulation

Jonas Bode, Raphael Memmesheimer, Sven Behnke

Comments 10 pages; 2 figures; 1 table

2511.12340 2026-04-28 cs.LG

LILogic Net: Compact Logic Gate Networks with Learnable Connectivity for Efficient Hardware Deployment

Katarzyna Fojcik, Renaldas Zioma, Jogundas Armaitis

2511.11218 2026-04-28 cs.RO

Humanoid Whole-Body Badminton via Multi-Stage Reinforcement Learning

Chenhao Liu, Leyun Jiang, Yibo Wang, Kairan Yao, Jinchen Fu, Xiaoyu Ren

Comments Project Page: https://humanoid-badminton.github.io/Humanoid-Whole-Body-Badminton-via-Multi-Stage-Reinforcement-Learning

2511.07940 2026-04-28 cs.CV

ISExplore:Informative Segment Selection for Efficient Personalized 3D Talking Face Generation

Rui-Qing Sun, Ang Li, Zhijing Wu, Tian Lan, Qianyu Lu, Xingshan Yao, Chen Xu, Xian-Ling Mao

2511.07410 2026-04-28 cs.RO cs.AI

Using Language Models as Closed-Loop High-Level Planners for Robotics Applications: A Brief Overview and Benchmarks

Hao Wang, Sathwik Karnik, Bea Lim, Somil Bansal

2510.18774 2026-04-28 cs.CL

AI use in American newspapers is widespread, uneven, and rarely disclosed

Jenna Russell, Marzena Karpinska, Destiny Akinode, Katherine Thai, Bradley Emi, Max Spero, Mohit Iyyer

Comments ACL Camera Ready

2510.17590 2026-04-28 cs.AI cs.CL cs.CV cs.CY cs.LG

MERIT: Modular Framework for Multimodal Misinformation Detection with Web-Grounded Reasoning

Mir Nafis Sharear Shopnil, Sharad Duwal, Abhishek Tyagi, Adiba Mahbub Proma

Comments 18 pages, 4 tables, 3 figures. Major revision with updated title, framing, methodology, experiments, and error analysis

2510.15479 2026-04-28 cs.LG stat.ML

Adversary-Free Counterfactual Prediction via Information-Regularized Representations

Shiqin Tang, Rong Feng, Shuxin Zhuang, Youzhi Zhang, Hongzong Li

2510.15050 2026-04-28 cs.CV

DRIFT: Transferring Reasoning Priors for Efficient MLLM Fine-Tuning

Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu

Comments ACL 2026 camera-ready; Project Page: https://wikichao.github.io/DRIFT/

2510.13799 2026-04-28 cs.CL

BRIEF-Pro: Universal Context Compression with Short-to-Long Synthesis for Fast and Accurate Multi-Hop Reasoning

Jia-Chen Gu, Junyi Zhang, Di Wu, Yuankai Li, Kai-Wei Chang, Nanyun Peng

Comments Accepted by ACL 2026 Findings. Code and data: https://github.com/JasonForJoy/BRIEF

2510.13087 2026-04-28 cs.LG stat.ME stat.ML

DeepCausalMMM: A Deep Learning Framework for Marketing Mix Modeling with Causal Structure Learning

Aditya Puttaparthi Tirumala

Comments Published in the Journal of Open Source Software. Please cite the JOSS version - doi:10.21105/joss.09914. Please note that Author has no middle name. Last name is 'Puttaparthi Tirumala' (it's a two-part surname)

2510.05799 2026-04-28 cs.CL cs.AI cs.SD

Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech

Rikuto Kotoge, Yuichi Sasaki

Comments Accepted at ACL 2026 (Main)

2510.02629 2026-04-28 cs.CL

Evaluation Framework for Highlight Explanations of Context Utilisation in Language Models

Jingyi Sun, Pepa Atanasova, Sagnik Ray Choudhury, Sekh Mainul Islam, Isabelle Augenstein

2510.00626 2026-04-28 cs.SD cs.CL

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

Chen-An Li, Tzu-Han Lin, Hung-yi Lee

Comments Accepted to ICASSP 2026

2509.25424 2026-04-28 cs.LG cs.AI

Polychromic Objectives for Reinforcement Learning

Jubayer Ibn Hamid, Ifdita Hasan Orney, Ellen Xu, Chelsea Finn, Dorsa Sadigh

2509.25358 2026-04-28 cs.RO

SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

Qianzhong Chen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu

2509.25346 2026-04-28 cs.AI cs.LG q-bio.CB q-bio.GN

SynthPert: Enhancing LLM Biological Reasoning via Synthetic Reasoning Traces for Cellular Perturbation Prediction

Lawrence Phillips, Marc Boubnovski Martell, Aditya Misra, Josefa Lia Stoisser, Cesar A. Prada-Medina, Rory Donovan-Maiye, Kaspar Märtens

2509.24948 2026-04-28 cs.RO

World-Env: Leveraging World Model as a Virtual Environment for VLA Post-Training

Junjin Xiao, Yandan Yang, Xinyuan Chang, Ronghan Chen, Feng Xiong, Mu Xu, Wei-Shi Zheng, Qing Zhang

2509.21199 2026-04-28 cs.AI

A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA

Kaiyang Wan, Lang Gao, Honglin Mu, Preslav Nakov, Yuxia Wang, Xiuying Chen

Comments 22 pages, 6 figures, ICLR 2026. Reported by MIT Technology Review

2509.20374 2026-04-28 cs.CL cs.AI

CFDLLMBench: A Benchmark Suite for Evaluating Large Language Models in Computational Fluid Dynamics

Nithin Somasekharan, Ling Yue, Yadi Cao, Weichao Li, Patrick Emami, Pochinapeddi Sai Bhargav, Anurag Acharya, Xingyu Xie, Shaowu Pan

Comments 40 pages

2509.19601 2026-04-28 cs.LG cs.SY eess.SP eess.SY

Learning Genetic Circuit Modules with Neural Networks: Full Version

Jichi Wang, Eduardo D. Sontag, Domitilla Del Vecchio

2509.16702 2026-04-28 cs.CV

Animalbooth: multimodal feature enhancement for animal subject personalization

Chen Liu, Haitao Wu, Kafeng Wang, Weiran Huang

2509.14635 2026-04-28 cs.CL cs.PL cs.SE

SWE-QA: Can Language Models Answer Repository-level Code Questions?

Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu

Comments Accepted to ACL 2026 Findings. Code and data available at https://github.com/peng-weihan/SWE-QA-Bench

2509.14295 2026-04-28 cs.RO cs.MA

Aegis: Automated Error Generation and Attribution for Multi-Agent Systems

Fanqi Kong, Ruijie Zhang, Huaxiao Yin, Guibin Zhang, Xiaofei Zhang, Ziang Chen, Zhaowei Zhang, Xiaoyuan Zhang, Song-Chun Zhu, Xue Feng

2509.11717 2026-04-28 cs.SD cs.LG

CodecSep: Prompt-Driven Universal Sound Separation on Neural Audio Codec Latents

Adhiraj Banerjee, Vipul Arora

Comments main content- 27 pages, total - 53 pages, 12 figure, pre-print, under review

2509.06904 2026-04-28 cs.CV

BIR-Adapter: A parameter-efficient diffusion adapter for blind image restoration

Cem Eteke, Alexander Griessel, Wolfgang Kellerer, Eckehard Steinbach