arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2603.15129 2026-03-19 cs.CV

Next-Frame Decoding for Ultra-Low-Bitrate Image Compression with Video Diffusion Priors

Yunuo Chen, Chuqin Zhou, Jiangchuan Li, Xiaoyue Ling, Bing He, Jincheng Dai, Li Song, Guo Lu

详情

英文摘要

We present a novel paradigm for ultra-low-bitrate image compression (ULB-IC) that exploits the "temporal" evolution in generative image compression. Specifically, we define an explicit intermediate state during decoding: a compact anchor frame, which preserves the scene geometry and semantic layout while discarding high-frequency details. We then reinterpret generative decoding as a virtual temporal transition from this anchor to the final reconstructed image.To model this progression, we leverage a pretrained video diffusion model (VDM) as temporal priors: the anchor frame serves as the initial frame and the original image as the target frame, transforming the decoding process into a next-frame prediction task.In contrast to image diffusion-based ULB-IC models, our decoding proceeds from a visible, semantically faithful anchor, which improves both fidelity and realism for perceptual image compression. Extensive experiments demonstrate that our method achieves superior objective and subjective performance. On the CLIC2020 test set, our method achieves over 50% bitrate savings across LPIPS, DISTS, FID, and KID compared to DiffC, while also delivering a significant decoding speedup of up to $\times$5. Code will be released later.

URL PDF HTML ☆

赞 0 踩 0

2603.15119 2026-03-19 cs.CV

A Tutorial on ALOS2 SAR Utilization: Dataset Preparation, Self-Supervised Pretraining, and Semantic Segmentation

Nevrez Imamoglu, Ali Caglayan, Toru Kouyama

Comments 10 pages, 8 figures, 1 Table

2603.14920 2026-03-19 cs.CV

F2HDR: Two-Stage HDR Video Reconstruction via Flow Adapter and Physical Motion Modeling

Huanjing Yue, Dawei Li, Shaoxiong Tu, Jingyu Yang

Comments Accepted by CVPR 2026

2603.14887 2026-03-19 cs.RO

ViSA: Visited-State Augmentation for Generalized Goal-Space Contrastive Reinforcement Learning

Issa Nakamura, Tomoya Yamanokuchi, Yuki Kadokawa, Jia Qu, Shun Otsub, Ken Miyamoto, Shotaro Miwa, Takamitsu Matsubara

Comments 8 pages, 7 figures, under Review

2603.14558 2026-03-19 cs.AI

JobMatchAI An Intelligent Job Matching Platform Using Knowledge Graphs, Semantic Search and Explainable AI

Mayank Vyas, Abhijit Chakraborty, Vivek Gupta

2603.14549 2026-03-19 cs.CV cs.LG

ASAP: Attention-Shift-Aware Pruning for Efficient LVLM Inference

Surendra Pathak, Bo Han

Comments Update in V2: Added citations, refrences, and other minor rewrites

2603.14331 2026-03-19 cs.CV

AvatarForcing: One-Step Streaming Talking Avatars via Local-Future Sliding-Window Denoising

Liyuan Cui, Wentao Hu, Wenyuan Zhang, Zesong Yang, Fan Shi, Xiaoqiang Liu

2603.13728 2026-03-19 cs.CV cs.CR

Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search

Bo Ma, Wei Qi Yan, Jinsong Wu

2603.13707 2026-03-19 cs.RO cs.AI cs.LG

REFINE-DP: Diffusion Policy Fine-tuning for Humanoid Loco-manipulation via Reinforcement Learning

Zhaoyuan Gu, Yipu Chen, Zimeng Chai, Alfred Cueva, Thong Nguyen, Yifan Wu, Huishu Xue, Minji Kim, Isaac Legene, Fukang Liu, Matthew Kim, Ayan Barula, Yongxin Chen, Ye Zhao

2603.12789 2026-03-19 cs.CV

Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park

Comments Project page: https://nstar1125.github.io/chromm

2603.12399 2026-03-19 cs.RO cs.SY eess.SY

Push, Press, Slide: Mode-Aware Planar Contact Manipulation via Reduced-Order Models

Melih Özcan, Umut Orguner, Ozgur S. Oguz

Comments 8 pages, 13 figures. Submitted to IEEE IROS 2026

2603.11971 2026-03-19 cs.CV cs.AI

Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim

Comments 7 pages

2603.11327 2026-03-19 cs.LG cs.CL

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi

Comments 23 pages, Preprint

2603.11298 2026-03-19 cs.CV

InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction

Dingqiang Ye, Jiacong Xu, Jianglu Ping, Yuxiang Guo, Chao Fan, Vishal M. Patel

2603.10604 2026-03-19 cs.CV

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Stefanos Pasios, Nikos Nikolaidis

Comments This paper is under consideration at Pattern Recognition Letters

2603.09792 2026-03-19 cs.LG cs.AI

Exploiting Adaptive Channel Pruning for Communication-Efficient Split Learning

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni

Comments 6 pages, 6 figures,

2603.09513 2026-03-19 cs.RO

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Honghui Wang, Zhi Jing, Jicong Ao, Shiji Song, Xuelong Li, Gao Huang, Chenjia Bai

Comments 9 pages

2603.09506 2026-03-19 cs.CV cs.RO

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Won Shik Jang, Ue-Hwan Kim

Comments Accepted to CVPR 2026. Code is available at https://github.com/AutoCompSysLab/ContextNav

2603.08447 2026-03-19 cs.AI

Efficient Policy Learning with Hybrid Evaluation-Based Genetic Programming for Uncertain Agile Earth Observation Satellite Scheduling

Junhua Xue, Yuning Chen, Mingyan Shao, Yangming Zhou, Qinghua Wu, Yingwu Chen

Comments 18 pages, 10 figures, 8 tables

2603.03818 2026-03-19 cs.LG cs.AI cs.RO

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

Huihan Liu, Changyeon Kim, Bo Liu, Minghuan Liu, Yuke Zhu

Comments Project website: https://continual-vlas.github.io/forget-me-not/

2603.01771 2026-03-19 cs.LG cs.AI

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Harry Amad, Mihaela van der Schaar

2603.01732 2026-03-19 cs.CL

Bootstrapping Embeddings for Low Resource Languages

Merve Basoz, Andrew Horne, Mattia Opper

Comments (v2 - LoResLM Camera Ready)

2602.21818 2026-03-19 cs.CV

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Guibin Chen, Dixuan Lin, Jiangping Yang, Youqiang Zhang, Zhengcong Fei, Debang Li, Sheng Chen, Chaofeng Ao, Nuo Pang, Yiming Wang, Yikun Dou, Zheng Chen, Mingyuan Fan, Tuanhui Li, Mingshan Chang, Hao Zhang, Xiaopeng Sun, Jingtao Xu, Yuqiang Xie, Jiahua Wang, Zhiheng Xu, Weiming Xiong, Yuzhe Jin, Baoxuan Gu, Binjie Mao, Yunjie Yu, Jujie He, Yuhao Feng, Shiwen Tu, Chaojie Wang, Rui Yan, Wei Shen, Jingchen Wu, Peng Zhao, Xuanyue Zhong, Zhuangzhuang Liu, Kaifei Wang, Fuxiang Zhang, Weikai Xu, Wenyan Liu, Binglu Zhang, Yu Shen, Tianhui Xiong, Bin Peng, Liang Zeng, Xuchen Song, Haoxiang Guo, Peiyu Wang, Max W. Y. Lam, Chien-Hung Liu, Yahui Zhou

2602.19414 2026-03-19 cs.LG cs.SY eess.SY stat.ML

Federated Causal Representation Learning in State-Space Systems for Decentralized Counterfactual Reasoning

Nazal Mohamed, Ayush Mohanty, Nagi Gebraeel

Comments Manuscript under review

2602.18168 2026-03-19 cs.LG

A Deep Surrogate Model for Robust and Generalizable Long-Term Blast Wave Prediction

Danning Jing, Xinhai Chen, Xifeng Pu, Jie Hu, Chao Huang, Xuguang Chen, Qinglin Wang, Jie Liu

Comments The authors wish to withdraw this version for substantial revision and internal review. The current version contains preliminary findings that require further validation before public dissemination

2602.17918 2026-03-19 cs.LG cs.DS stat.ML

Distribution-Free Sequential Prediction with Abstentions

Jialin Yu, Moïse Blanchard

Comments 40 pages, 2 figures

2602.14077 2026-03-19 cs.CL cs.LG

GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler

Minghan Wang, Ye Bai, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari

2602.13293 2026-03-19 cs.CV eess.IV

NutVLM: A Self-Adaptive Defense Framework against Full-Dimension Attacks for Vision Language Models in Autonomous Driving

Xiaoxu Peng, Dong Zhou, Jianwen Zhang, Guanghui Sun, Anh Tu Ngo, Anupam Chattopadhyay

Comments 12 pages, 6 figures

2602.10489 2026-03-19 cs.LG cs.AI

Learning Adaptive Distribution Alignment with Neural Characteristic Function for Graph Domain Adaptation

Wei Chen, Xingyu Guo, Shuang Li, Zhao Zhang, Yan Zhong, Fuzhen Zhuang, Deqing wang

Comments Accepted by ICLR 2026, 24 pages

2602.10063 2026-03-19 cs.AI

Chain of Mindset: Reasoning with Adaptive Cognitive Modes

Tianyi Jiang, Arctanx An, Hengyi Feng, Naixin Zhai, Haodong Li, Xiaomin Yu, Jiahui Liu, Hanwen Du, Shuo Zhang, Zhi Yang, Jie Huang, Youhua Li, Yongxin Ni, Huacan Wang, Ronghao Chen