arXivDaily arXiv每日学术速递 周一至周五更新

视觉与机器人

图像生成

图像生成、文生图、图像编辑、扩散模型和可控生成。

今日/当前日期收录 44 信号源:cs.CV, cs.GR, cs.MM

1. 图像编辑 3 篇

2606.20233 2026-06-19 cs.CV 新提交 专题 70

Cinematic Compositing Using Character-Environment-Harmonized Video Generation Models

使用角色-环境协调视频生成模型的电影级合成

Tianyi Xiang, Mingming He, Li Ma, Jing Liao

专题命中 图像编辑 :涉及图像合成与光照协调

AI总结 提出端到端视频扩散框架,通过三掩码引导和RGB-D联合去噪建模角色与环境的双向物理与光照交互,实现高质量动态视频合成。

2602.01391 2026-06-19 cs.CV 版本更新 专题 70

Relighting as a Probe of Visual Priors via Augmented Latent Intrinsics

通过增强潜在本征属性将重光照作为视觉先验的探针

Xiaoyan Xing, Xiao Zhang, Sezer Karaoglu, Theo Gevers, Anand Bhattad

专题命中 图像编辑 :重光照属于图像编辑范畴

AI总结 提出增强潜在本征属性(ALI)方法,融合密集像素对齐视觉特征到潜在本征重光照模型,平衡语义与光度保真度,提升复杂材质重光照质量。

Comments Camera-ready version for ICML 2026. Project page: https://augmented-latent-intrinsics.github.io

2606.20556 2026-06-19 cs.CV 新提交 专题 65

Thinking in Boxes: 3D Editing in Real Images Made Easy

Thinking in Boxes: 真实图像中的3D编辑变得简单

Pradhaan S Bhat, Naveen Chandra R, Rishubh Parihar, Vaibhav Vavilala, R. Venkatesh Babu, D. A. Forsyth, Anand Bhattad

专题命中 图像编辑 :基于3D盒子的图像编辑方法。

AI总结 提出使用3D盒子作为结构化规范,通过用户提供输入和输出盒子来精确控制真实图像中的平移、旋转、缩放和视角变化,同时保持场景和物体身份,恢复未见的物体区域。

Comments Project Page: https://thinking-in-boxes.github.io/

2. 文生图 3 篇

2606.19460 2026-06-19 cs.CV cs.AI cs.LG 新提交 专题 70

Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers

使用整流流变换器扩展胸部X光片的生成式基础模型

Fabio De Sousa Ribeiro, Emma A. M. Stanley, Charles Jones, Tian Xia, Dominic C. Marshall, Laurent Renard Triché, Christopher V. Cosgriff, Panagiotis Dimitrakopoulos, Sotirios A. Tsaftaris, Ben Glocker

专题命中 文生图 :可控胸部X光片合成,属于图像生成。

AI总结 提出首个十亿参数级胸部X光片生成基础模型,通过整流流变换器实现高保真可控合成,显著提升合成图像与真实图像的不可区分性。

Comments Project page: https://RadiT-project.github.io

2605.10898 2026-06-19 cs.HC 版本更新 专题 70

How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy

创意人士如何接近生成式AI图像生成:结构化指导、自我实验与创意自主之间的张力

Haidan Liu, Isabelle Kwan, Taiga Okuma, Jeffrey Loverock, Nicholas Vincent, Parmit K Chilana

专题命中 文生图 :研究创意人士使用GenAI图像生成工具的行为

AI总结 研究探讨创意人士在使用生成式AI图像工具时如何平衡结构化指导与自我实验,发现尽管指导有助于理解AI,但许多人仍倾向于自我探索以保持创意自由。

Comments Accepted at ACM Creativity & Cognition 2026

2506.06952 2026-06-19 cs.CV 版本更新 专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中 文生图 :提出高效架构实现图像生成,速度提升6倍。

AI总结 提出LaTtE-Flow,一种基于预训练视觉语言模型的高效统一架构,通过层间时间步专家流和条件残差注意力机制,实现图像理解与生成,生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

3. 其他图像生成 4 篇

2606.16417 2026-06-19 cs.SD eess.AS 新提交 专题 70

Joycent: Diffusion-based Accent TTS without Accented Phone Prediction

Joycent: 基于扩散的口音语音合成,无需口音音素预测

Xintong Wang, Ye Wang

专题命中 其他图像生成 :扩散模型用于口音语音合成

AI总结 提出Joycent,一种基于扩散模型的口音TTS方法,直接从标准音素序列和语音参考合成口音语音,无需口音音素预测,通过条件层归一化集成口音和说话人表征,并引入WhisAID口音识别模型,在保持说话人身份的同时提升口音自然度。

2606.19957 2026-06-19 cs.CY 新提交 专题 60

Modest, artistic, and radical solutions to the environmental impact of image-generating machine learning

图像生成机器学习的环境影响:温和、艺术与激进的解决方案

Laura U. Marks, Jess MacCormack, Kehui Li

专题命中 其他图像生成 :讨论图像生成ML的环境影响与解决方案

AI总结 针对图像生成ML的高能耗问题,从计算机工程、媒体研究和艺术角度探索非精确计算、小模型、低精度硬件等解决方案,并提出真实成本核算。

Comments Paper in Proceedings of LIMITS 2026: 12th Workshop on Computing within Limits, 2026-06-23-25, Online

2507.04081 2026-06-19 cs.NI 版本更新 专题 60

Graph Diffusion-Based AeBS Deployment and Resource Allocation in RSMA-Enabled URLLC Low-Altitude Wireless Networks

基于图扩散的RSMA使能URLLC低空无线网络中AeBS部署与资源分配

Xudong Wang, Lei Feng, Jiacheng Wang, Hongyang Du, Changyuan Zhao, Wenjing Li, Ping Zhang

专题命中 其他图像生成 :图扩散模型用于资源分配,弱相关。

AI总结 针对低空无线网络中频谱受限和同频干扰问题,提出基于速率分割多址接入(RSMA)的传输设计,并利用生成式图扩散模型联合优化AeBS部署、用户关联和资源分配,以最大化总速率和覆盖率。

Comments 13 pages, 9 figures

2606.19701 2026-06-19 astro-ph.HE 新提交 专题 55

On the Contribution of Local Sources to the Galactic Cosmic-Ray Spectrum: An Exact Series Solution for Two-Zone Diffusion

论局部源对银河宇宙射线谱的贡献:两区扩散的精确级数解

Zi-Hang Liu, Yiwei Bao, Ruo-Yu Liu

专题命中 其他图像生成 :局部源对宇宙射线谱贡献的扩散模型

AI总结 本文推导了两区扩散模型的级数格林函数,通过蒙特卡洛模拟发现近源慢扩散使局部源贡献概率从0.4%升至1.7-2.2%,但统计困难仍存,且局部源解释高度依赖模型。

Comments submitted to PRD, The code accompanying this paper will be released soon

4. 可控生成 3 篇

2606.15015 2026-06-19 cs.CV cs.AI 新提交 专题 70

NEXUS: Neural Energy Fields for Physically Consistent Contact-Rich 3D Object Dynamics

NEXUS: 用于物理一致的高接触3D物体动力学的神经能量场

Qizhen Ying, Guangming Wang, Yangchen Pan, Victor Adrian Prisacariu, Brian Sheil, Yixiong Jing

专题命中 可控生成 :指导物理一致视频生成

AI总结 提出神经能量场框架NEXUS,通过标量能量和耗散项建模保守与非保守动力学,提升高接触3D场景下的长时程轨迹精度并指导视频生成。

Comments 18 pages, 4 figures, 6 tables. Preprint

2601.21081 2026-06-19 cs.CV 版本更新 专题 70

Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

思维形状:通过视觉思维链进行渐进式物体组装

Yu Huo, Siyu Zhang, Kun Zeng, Haoyue Liu, Owen Lee, Junlin Chen, Yuquan Lu, Yifu Guo, Yaodong Liang, Xiaoying Tang

专题命中 可控生成 :文本到图像生成中的组合结构约束

AI总结 提出Shape-of-Thought (SoT)框架,通过视觉思维链在渲染2D域中逐步组装形状,解决文本到图像生成中的组合结构约束问题,在组件计数和结构拓扑上显著优于直接生成。

Comments ICML2026

2503.01425 2026-06-19 cs.GR cs.CV 版本更新 专题 70

MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing

MeshPad: 交互式草图条件艺术家风格网格生成与编辑

Haoxuan Li, Ziya Erkoc, Lei Li, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner

专题命中 可控生成 :草图条件生成3D网格,涉及可控生成。

AI总结 提出MeshPad,一种基于草图输入的交互式3D网格生成与编辑方法,通过分解为网格区域的删除和添加操作,结合Transformer和顶点对齐推测策略,实现快速迭代编辑,在Chamfer距离上提升22%以上质量,并获90%用户偏好。

Comments Project page: https://derkleineli.github.io/meshpad/ Video: https://www.youtube.com/watch?v=_T6UTGTMZ1E

5. 图像修复 1 篇

2606.20095 2026-06-19 cs.CV 新提交 专题 60

Stitching and dimensionality effects on large artificially generated volume datasets

拼接和维度对大规模人工生成体数据集的影响

Lucas von Chamier, Jan Philipp Albrecht, Dagmar Kainmüller

专题命中 图像修复 :拼接伪影影响生成质量

AI总结 研究深度学习生成大图像时的拼接伪影对风格迁移的影响,比较2D与3D模型,发现FID无法检测影响下游任务的细微伪影,3D模型略优但计算成本高。