arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

Robbyant Team, Zelin Gao, Qiuyu Wang, Yanhong Zeng, Jiapeng Zhu, Ka Leong Cheng, Yixuan Li, Hanlin Wang, Yinghao Xu, Shuailei Ma, Yihang Chen, Jie Liu, Yansong Cheng, Yao Yao, Jiayi Zhu, Yihao Meng, Kecheng Zheng, Qingyan Bai, Jingye Chen, Zehong Shen, Yue Yu, Xing Zhu, Yujun Shen, Hao Ouyang

Comments Project page: https://technology.robbyant.com/lingbot-world; Code: https://github.com/robbyant/lingbot-world

2601.20526 2026-01-29 cs.CV

IOTA: Corrective Knowledge-Guided Prompt Learning via Black-White Box Framework

Shaokun Wang, Yifan Yu, Yuhang He, Weili Guan, Yihong Gong

2601.20520 2026-01-29 cs.CV

Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective

Qiyan Zhao, Xiaofeng Zhang, Shuochen Chang, Qianyu Chen, Xiaosong Yuan, Xuhang Chen, Luoqi Liu, Jiajun Zhang, Xu-Yao Zhang, Da-Han Wang

Comments Accepted in ICLR 2026

2601.20511 2026-01-29 cs.CV

Say Cheese! Detail-Preserving Portrait Collection Generation via Natural Language Edits

Zelong Sun, Jiahui Wu, Ying Ba, Dong Jing, Zhiwu Lu

2601.20510 2026-01-29 cs.SD cs.AI eess.AS

Audio Deepfake Detection in the Age of Advanced Text-to-Speech models

Robin Singh, Aditya Yogesh Nair, Fabio Palumbo, Florian Barbaro, Anna Dyka, Lohith Rachakonda

Comments This work was performed using HPC resources from GENCI-IDRIS (Grant 2025- AD011016076)

2601.20504 2026-01-29 cs.CV

Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V

Meiqi Wu, Bingze Song, Ruimin Lin, Chen Zhu, Xiaokun Feng, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang

Comments Accepted by ICASSP 2026

2601.20499 2026-01-29 cs.CV

Efficient Autoregressive Video Diffusion with Dummy Head

Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu

Comments Technical Report

2601.20478 2026-01-29 cs.SD cs.IR

On Every Note a Griff: Looking for a Useful Representation of Basso Continuo Performance Style

Adam Štefunko, Carlos Eduardo Cancino-Chacón, Jan Hajič

Comments 6 pages, 5 figures, accepted to the Music Encoding Conference (MEC) 2026

详情

英文摘要

Basso continuo is a baroque improvisatory accompaniment style which involves improvising multiple parts above a given bass line in a musical score on a harpsichord or organ. Basso continuo is not merely a matter of history; moreover, it is a historically inspired living practice, and The Aligned Continuo Dataset (ACoRD) records the first sample of modern-day basso continuo playing in the symbolic domain. This dataset, containing 175 MIDI recordings of 5 basso continuo scores performed by 7 players, allows us to start observing and analyzing the variety that basso continuo improvisation brings. A recently proposed basso continuo performance-to-score alignment system provides a way of mapping improvised performance notes to score notes. In order to study aligned basso continuo performances, we need an appropriate feature representation. We propose griff, a representation inspired by historical basso continuo treatises. It enables us to encode both pitch content and structure of a basso continuo realization in a transposition-invariant way. Griffs are directly extracted from aligned basso continuo performances by grouping together performance notes aligned to the same score note in a onset-time ordered way, and they provide meaningful tokens that form a feature space in which we can analyze basso continuo performance styles. We statistically describe griffs extracted from the ACoRD dataset recordings, and show in two experiments how griffs can be used for statistical analysis of individuality of different players' basso continuo performance styles. We finally present an argument why it is desirable to preserve the structure of a basso continuo improvisation in order to conduct a refined analysis of personal performance styles of individual basso continuo practitioners, and why griffs can provide a meaningful historically informed feature space worthy of a more robust empirical validation.

URL PDF HTML ☆

赞 0 踩 0

2601.20476 2026-01-29 cs.CL

Can We Improve Educational Diagram Generation with In-Context Examples? Not if a Hallucination Spoils the Bunch

Evanfiya Logacheva, Arto Hellas, Tsvetomila Mihaylova, Juha Sorva, Ava Heinonen, Juho Leinonen

2601.20467 2026-01-29 cs.AI cs.CL

CtrlCoT: Dual-Granularity Chain-of-Thought Compression for Controllable Reasoning

Zhenxuan Fan, Jie Cao, Yang Dai, Zheqi Lv, Wenqiao Zhang, Zhongle Xie, Peng LU, Beng Chin Ooi

Comments 16 pages, 9 figures, 11 tables

2601.20465 2026-01-29 cs.CL

BMAM: Brain-inspired Multi-Agent Memory Framework

Yang Li, Jiaxiang Liu, Yusong Wang, Yujie Wu, Mingkun Xu

Comments Submitted to ACL (ARR 2026 January submission); non-anonymous preprint

2601.20449 2026-01-29 cs.LG cs.AI

Fair Recourse for All: Ensuring Individual and Group Fairness in Counterfactual Explanations

Fatima Ezzeddine, Obaida Ammar, Silvia Giordano, Omran Ayoub

2601.20448 2026-01-29 cs.LG

TimeCatcher: A Variational Framework for Volatility-Aware Forecasting of Non-Stationary Time Series

Zhiyu Chen, Minhao Liu, Yanru Zhang

Comments Under review. 13 pages, 8 figures. This paper proposes a variational framework with adaptive volatility enhancement for non-stationary time series forecasting

2601.20439 2026-01-29 cs.CL

PEARL: Plan Exploration and Adaptive Reinforcement Learning for Multihop Tool Use

Qihao Wang, Mingzhe Lu, Jiayue Wu, Yue Hu, Yanbing Liu

Comments Accepted to PRICAI25

2601.20430 2026-01-29 cs.CV

Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding

Kun Yin, Yunfei Wu, Bing Liu, Zhongpeng Cai, Xiaotian Li, Huang Chen, Xin Li, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Qianyu Li, Antai Guo, Yanzhen Liao, Yanqiu Qu, Haodong Lin, Chengxu He, Shuangyin Liu

2601.20428 2026-01-29 cs.LG stat.AP

Nonlinear Dimensionality Reduction with Diffusion Maps in Practice

Sönke Beier, Paula Pirker-Díaz, Friedrich Pagenkopf, Karoline Wiesner

2601.20426 2026-01-29 cs.SD

Mix2Morph: Learning Sound Morphing from Noisy Mixes

Annie Chu, Hugo Flores García, Oriol Nieto, Justin Salamon, Bryan Pardo, Prem Seetharaman

Comments Accepted into ICASSP 2026

2601.20425 2026-01-29 cs.CV

Quartet of Diffusions: Structure-Aware Point Cloud Generation through Part and Symmetry Guidance

Chenliang Zhou, Fangcheng Zhong, Weihao Xia, Albert Miao, Canberk Baykal, Cengiz Oztireli

2601.20424 2026-01-29 cs.CL

Hopes and Fears -- Emotion Distribution in the Topic Landscape of Finnish Parliamentary Speech 2000-2020

Anna Ristilä, Otto Tarkka, Veronika Laippala, Kimmo Elo

Comments 27 pages (40 including appendices), 5 figures (13 including sub-figures), 1 table, 1 formula, 3 appendices; submitted to JDMDH

2601.20419 2026-01-29 cs.CV cs.AI

Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models

Yuhao Sun, Chengyi Cai, Jiacheng Zhang, Zesheng Ye, Xingliang Yuan, Feng Liu

Comments 25 pages

2601.20412 2026-01-29 cs.CL cs.SE

Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents

Qihao Wang, Yue Hu, Mingzhe Lu, Jiayue Wu, Yanbing Liu, Yuanmin Tang

Comments Accepted to AAAI 2026

2601.20409 2026-01-29 cs.LG

AWGformer: Adaptive Wavelet-Guided Transformer for Multi-Resolution Time Series Forecasting

Wei Li

Comments Accepted by ICASSP 2026

2601.20401 2026-01-29 cs.LG

ScatterFusion: A Hierarchical Scattering Transform Framework for Enhanced Time Series Forecasting

Wei Li

Comments Accepted by ICASSP 2026

2601.20397 2026-01-29 cs.LG cs.AI

FedRD: Reducing Divergences for Generalized Federated Learning via Heterogeneity-aware Parameter Guidance

Kaile Wang, Jiannong Cao, Yu Yang, Xiaoyin Li, Mingjin Zhang

Comments Accepted by ICASSP 2026

2601.20383 2026-01-29 cs.CV

HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation

Mengge Liu, Yan Di, Gu Wang, Yun Qu, Dekai Zhu, Yanyan Li, Xiangyang Ji

2601.20380 2026-01-29 cs.AI

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Le Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang

2601.20379 2026-01-29 cs.AI

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han

Comments 19 pages, 5 figures

2601.20367 2026-01-29 cs.LG cs.SY eess.SY

Unsupervised Anomaly Detection in Multi-Agent Trajectory Prediction via Transformer-Based Models

Qing Lyu, Zhe Fu, Alexandre Bayen

2601.20366 2026-01-29 cs.CV

Dual-Modality IoT Framework for Integrated Access Control and Environmental Safety Monitoring with Real-Time Cloud Analytics

Abdul Hasib, A. S. M. Ahsanul Sarkar Akib, Nihal Das Ankur, Anish Giri

2601.20364 2026-01-29 cs.CV

RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching

Zhen Liu, Diedong Feng, Hai Jiang, Liaoyuan Zeng, Hao Wang, Chaoyu Feng, Lei Lei, Bing Zeng, Shuaicheng Liu

Comments AAAI2026 Oral

AI 大模型

视觉与机器人

科学与医疗

Advancing Open-source World Models

IOTA: Corrective Knowledge-Guided Prompt Learning via Black-White Box Framework

Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective

Say Cheese! Detail-Preserving Portrait Collection Generation via Natural Language Edits

Audio Deepfake Detection in the Age of Advanced Text-to-Speech models

Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V

Efficient Autoregressive Video Diffusion with Dummy Head

On Every Note a Griff: Looking for a Useful Representation of Basso Continuo Performance Style

Can We Improve Educational Diagram Generation with In-Context Examples? Not if a Hallucination Spoils the Bunch

CtrlCoT: Dual-Granularity Chain-of-Thought Compression for Controllable Reasoning

BMAM: Brain-inspired Multi-Agent Memory Framework

Fair Recourse for All: Ensuring Individual and Group Fairness in Counterfactual Explanations

TimeCatcher: A Variational Framework for Volatility-Aware Forecasting of Non-Stationary Time Series

PEARL: Plan Exploration and Adaptive Reinforcement Learning for Multihop Tool Use

Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding

Nonlinear Dimensionality Reduction with Diffusion Maps in Practice

Mix2Morph: Learning Sound Morphing from Noisy Mixes

Quartet of Diffusions: Structure-Aware Point Cloud Generation through Part and Symmetry Guidance

Hopes and Fears -- Emotion Distribution in the Topic Landscape of Finnish Parliamentary Speech 2000-2020

Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models

Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents

AWGformer: Adaptive Wavelet-Guided Transformer for Multi-Resolution Time Series Forecasting

ScatterFusion: A Hierarchical Scattering Transform Framework for Enhanced Time Series Forecasting

FedRD: Reducing Divergences for Generalized Federated Learning via Heterogeneity-aware Parameter Guidance

HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Unsupervised Anomaly Detection in Multi-Agent Trajectory Prediction via Transformer-Based Models

Dual-Modality IoT Framework for Integrated Access Control and Environmental Safety Monitoring with Real-Time Cloud Analytics

RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching