arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2603.12811 2026-03-16 cs.CV

OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution

Shijie Zhao, Xuanyu Zhang, Bin Chen, Weiqi Li, Qunliang Xing, Kexin Zhang, Yan Wang, Junlin Li, Li Zhang, Jian Zhang, Tianfan Xue

Comments Super-Resolution, Reinforcement Learning

详情

英文摘要

Aligning generative real-world image super-resolution models with human visual preference is challenging due to the perception--fidelity trade-off and diverse, unknown degradations. Prior approaches rely on offline preference optimization and static metric aggregation, which are often non-interpretable and prone to pseudo-diversity under strong conditioning. We propose OARS, a process-aware online alignment framework built on COMPASS, a MLLM-based reward that evaluates the LR to SR transition by jointly modeling fidelity preservation and perceptual gain with an input-quality-adaptive trade-off. To train COMPASS, we curate COMPASS-20K spanning synthetic and real degradations, and introduce a three-stage perceptual annotation pipeline that yields calibrated, fine-grained training labels. Guided by COMPASS, OARS performs progressive online alignment from cold-start flow matching to full-reference and finally reference-free RL via shallow LoRA optimization for on-policy exploration. Extensive experiments and user studies demonstrate consistent perceptual improvements while maintaining fidelity, achieving state-of-the-art performance on Real-ISR benchmarks.

URL PDF HTML ☆

赞 0 踩 0

2603.12808 2026-03-16 cs.LG

A Multi-task Large Reasoning Model for Molecular Science

Pengfei Liu, Shuang Ge, Jun Tao, Zhixiang Ren

2603.12807 2026-03-16 cs.RO cs.SY eess.SY

Reinforcement Learning for Elliptical Cylinder Motion Control Tasks

Pawel Marczewski, Paulina Superczynska, Jakub Bernat, Szymon Szczesny

2603.12806 2026-03-16 cs.RO

FLUX: Accelerating Cross-Embodiment Generative Navigation Policies via Rectified Flow and Static-to-Dynamic Learning

Zeying Gong, Yangyi Zhong, Yiyi Ding, Tianshuai Hu, Guoyang Zhao, Lingdong Kong, Rong Li, Jiadi You, Junwei Liang

Comments Project Page at this [Website](https://zeying-gong.github.io/projects/flux/)

2603.12799 2026-03-16 cs.CV

What Makes VLMs Robust? Towards Reconciling Robustness and Accuracy in Vision-Language Models

Sen Nie, Jie Zhang, Zhongqi Wang, Zhaoyang Wei, Shiguang Shan, Xilin Chen

Comments 28 pages

2603.12796 2026-03-16 cs.CV

Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting

Yang Chen, Yi Yu, Jiaming He, Yueqi Duan, Zheng Zhu, Yap-Peng Tan

2603.12795 2026-03-16 cs.CL

SteerRM: Debiasing Reward Models via Sparse Autoencoders

Mengyuan Sun, Zhuohao Yu, Weizheng Gu, Shikun Zhang, Wei Ye

2603.12793 2026-03-16 cs.CV cs.AI

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Yichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun

Comments 17 pages, 5 figures

2603.12791 2026-03-16 cs.RO

Motion-Specific Battery Health Assessment for Quadrotors Using High-Fidelity Battery Models

Joonhee Kim, Sanghyun Park, Donghyeong Kim, Eunseon Choi, Soohee Han

Comments 8 pages. Accepted to IEEE International Conference on Robotics and Automation (ICRA) 2026

2603.12787 2026-03-16 cs.CV

Generalized Recognition of Basic Surgical Actions Enables Skill Assessment and Vision-Language-Model-based Surgical Planning

Mengya Xu, Daiyun Shen, Jie Zhang, Hon Chi Yip, Yujia Gao, Cheng Chen, Dillan Imans, Yonghao Long, Yiru Ye, Yixiao Liu, Rongyun Mai, Kai Chen, Hongliang Ren, Yutong Ban, Guangsuo Wang, Francis Wong, Chi-Fai Ng, Kee Yuan Ngiam, Russell H. Taylor, Daguang Xu, Yueming Jin, Qi Dou

Comments 34 pages, 8 figures

2603.12773 2026-03-16 cs.CV cs.AI eess.IV

Empowering Semantic-Sensitive Underwater Image Enhancement with VLM

Guodong Fan, Shengning Zhou, Genji Yuan, Huiyu Li, Jingchun Zhou, Jinjiang Li

Comments Accepted as an Oral presentation at AAAI 2026

2603.12772 2026-03-16 cs.CV cs.LG cs.RO

PVI: Plug-in Visual Injection for Vision-Language-Action Models

Zezhou Zhang, Songxin Zhang, Xiao Xiong, Junjie Zhang, Zejian Xie, Jingyi Xi, Zunyao Mao, Zan Mao, Zhixin Mai, Zhuoyang Song, Jiaxing Zhang

2603.12769 2026-03-16 cs.RO

Easy-IIL: Reducing Human Operational Burden in Interactive Imitation Learning via Assistant Experts

Chengjie Zhang, Chao Tang, Wenlong Dong, Dehao Huang, Aoxiang Gu, Hong Zhang

2603.12768 2026-03-16 cs.CL

SectEval: Evaluating the Latent Sectarian Preferences of Large Language Models

Aditya Maheshwari, Amit Gajkeshwar, Kaushal Sharma, Vivek Patel

Comments 14 pages; 3 figures

2603.12764 2026-03-16 cs.CV

SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion

Xiang Li, Heqian Qiu, Lanxiao Wang, Benliu Qiu, Fanman Meng, Linfeng Xu, Hongliang Li

Comments This article was accepted by CVPR 2026

2603.12762 2026-03-16 cs.CV cs.LG

TerraFlow: Multimodal, Multitemporal Representation Learning for Earth Observation

Nazar Puriy, Johannes Jakubik, Benedikt Blumenstiel, Konrad Schindler

2603.12759 2026-03-16 cs.CV

SAP: Segment Any 4K Panorama

Lutao Jiang, Zidong Cao, Weikai Chen, Xu Zheng, Yuanhuiyi Lyu, Zhenyang Li, Zeyu HU, Yingda Yin, Keyang Luo, Runze Zhang, Kai Yan, Shengju Qian, Haidi Fan, Yifan Peng, Xin Wang, Hui Xiong, Ying-Cong Chen

Comments Project Page: https://lutao2021.github.io/SAP_Page/

2603.12758 2026-03-16 cs.CV cs.AI

FC-Track: Overlap-Aware Post-Association Correction for Online Multi-Object Tracking

Cheng Ju, Zejing Zhao, Akio Namiki

2603.12755 2026-03-16 cs.AI

AI Model Modulation with Logits Redistribution

Zihan Wang, Zhongkui Ma, Xinguo Feng, Zhiyang Mei, Ethan Ma, Derui Wang, Minhui Xue, Guangdong Bai

Comments The 2025 ACM Web Conference

2603.12751 2026-03-16 cs.CV cs.LG cs.RO

Show, Don't Tell: Detecting Novel Objects by Watching Human Videos

James Akl, Jose Nicolas Avendano Arbelaez, James Barabas, Jennifer L. Barry, Kalie Ching, Noam Eshed, Jiahui Fu, Michel Hidalgo, Andrew Hoelscher, Tushar Kusnur, Andrew Messing, Zachary Nagler, Brian Okorn, Mauro Passerino, Tim J. Perkins, Eric Rosen, Ankit Shah, Tanmay Shankar, Scott Shaw

2603.12749 2026-03-16 cs.CV cs.CR cs.LG

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

Zheng Gao, Yifan Yang, Xiaoyu Li, Xiaoyan Feng, Haoran Fan, Yang Song, Jiaojiao Jiang

2603.12746 2026-03-16 cs.CV

Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World

Yuzhi Huang, Kairun Wen, Rongxin Gao, Dongxuan Liu, Yibin Lou, Jie Wu, Jing Xu, Jian Zhang, Zheng Yang, Yunlong Lin, Chenxin Li, Panwang Pan, Junbin Lu, Jingyan Jiang, Xinghao Ding, Yue Huang, Zhi Wang

2603.12744 2026-03-16 cs.LG cs.AI cs.LO

TaoBench: Do Automated Theorem Prover LLMs Generalize Beyond MathLib?

Alexander K Taylor, Junyi Zhang, Ethan Ji, Vigyan Sahai, Haikang Deng, Yuanzhou Chen, Yifan Yuan, Di Wu, Jia-Chen Gu, Kai-Wei Chang, Nanyun Peng, Amit Sahai, Wei Wang

2603.12743 2026-03-16 cs.CV cs.AI cs.CL

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

Chenyang Zhu, Hongxiang Li, Xiu Li, Long Chen

Comments Project Page: https://chenyangzhu1.github.io/MoKus/

2603.12740 2026-03-16 cs.AI

ToolTree: Efficient LLM Agent Tool Planning via Dual-Feedback Monte Carlo Tree Search and Bidirectional Pruning

Shuo Yang, Soyeon Caren Han, Yihao Ding, Shuhe Wang, Eduard Hoy

Comments ICLR 2026

2603.12736 2026-03-16 cs.RO cs.MA

Conflict Mitigation in Shared Environments using Flow-Aware Multi-Agent Path Finding

Lukas Heuer, Yufei Zhu, Luigi Palmieri, Andrey Rudenko, Anna Mannucci, Sven Koenig, Martin Magnusson

Comments To be presented at ICRA 2026

2603.12733 2026-03-16 cs.AI

On Using Machine Learning to Early Detect Catastrophic Failures in Marine Diesel Engines

Francesco Maione, Paolo Lino, Giuseppe Giannino, Guido Maione

2603.12730 2026-03-16 cs.RO

AnchorVLA4D: an Anchor-Based Spatial-Temporal Vision-Language-Action Model for Robotic Manipulation

Juan Zhu, Zhanying Shao, Xiaoqi Li, Ethan Morgan, Jiadong Xu, Hongwei Fan, Hao Dong

2603.12724 2026-03-16 cs.LG

SciDesignBench: Benchmarking and Improving Language Models for Scientific Inverse Design

David van Dijk, Ivan Vrkic

Comments 35 pages, 19 figures, 9 tables

2603.12722 2026-03-16 cs.CV cs.AI

CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment

Kaifan Zhang, Lihuo He, Junjie Ke, Yuqi Ji, Lukun Wu, Lizi Wang, Xinbo Gao