图像生成

2606.20233 2026-06-19 cs.CV 新提交专题 70

Cinematic Compositing Using Character-Environment-Harmonized Video Generation Models

使用角色-环境协调视频生成模型的电影级合成

Tianyi Xiang, Mingming He, Li Ma, Jing Liao

专题命中图像编辑：涉及图像合成与光照协调

AI总结提出端到端视频扩散框架，通过三掩码引导和RGB-D联合去噪建模角色与环境的双向物理与光照交互，实现高质量动态视频合成。

URL PDF HTML

2602.01391 2026-06-19 cs.CV 版本更新专题 70

Relighting as a Probe of Visual Priors via Augmented Latent Intrinsics

通过增强潜在本征属性将重光照作为视觉先验的探针

Xiaoyan Xing, Xiao Zhang, Sezer Karaoglu, Theo Gevers, Anand Bhattad

专题命中图像编辑：重光照属于图像编辑范畴

AI总结提出增强潜在本征属性（ALI）方法，融合密集像素对齐视觉特征到潜在本征重光照模型，平衡语义与光度保真度，提升复杂材质重光照质量。

Comments Camera-ready version for ICML 2026. Project page: https://augmented-latent-intrinsics.github.io

URL PDF HTML

2606.20556 2026-06-19 cs.CV 新提交专题 65

Thinking in Boxes: 3D Editing in Real Images Made Easy

Thinking in Boxes: 真实图像中的3D编辑变得简单

Pradhaan S Bhat, Naveen Chandra R, Rishubh Parihar, Vaibhav Vavilala, R. Venkatesh Babu, D. A. Forsyth, Anand Bhattad

专题命中图像编辑：基于3D盒子的图像编辑方法。

AI总结提出使用3D盒子作为结构化规范，通过用户提供输入和输出盒子来精确控制真实图像中的平移、旋转、缩放和视角变化，同时保持场景和物体身份，恢复未见的物体区域。

Comments Project Page: https://thinking-in-boxes.github.io/

URL PDF HTML

2606.19460 2026-06-19 cs.CV cs.AI cs.LG 新提交专题 70

Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers

使用整流流变换器扩展胸部X光片的生成式基础模型

Fabio De Sousa Ribeiro, Emma A. M. Stanley, Charles Jones, Tian Xia, Dominic C. Marshall, Laurent Renard Triché, Christopher V. Cosgriff, Panagiotis Dimitrakopoulos, Sotirios A. Tsaftaris, Ben Glocker

专题命中文生图：可控胸部X光片合成，属于图像生成。

AI总结提出首个十亿参数级胸部X光片生成基础模型，通过整流流变换器实现高保真可控合成，显著提升合成图像与真实图像的不可区分性。

Comments Project page: https://RadiT-project.github.io

URL PDF HTML

2605.10898 2026-06-19 cs.HC 版本更新专题 70

How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy

创意人士如何接近生成式AI图像生成：结构化指导、自我实验与创意自主之间的张力

Haidan Liu, Isabelle Kwan, Taiga Okuma, Jeffrey Loverock, Nicholas Vincent, Parmit K Chilana

专题命中文生图：研究创意人士使用GenAI图像生成工具的行为

AI总结研究探讨创意人士在使用生成式AI图像工具时如何平衡结构化指导与自我实验，发现尽管指导有助于理解AI，但许多人仍倾向于自我探索以保持创意自由。

Comments Accepted at ACM Creativity & Cognition 2026

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中文生图：提出高效架构实现图像生成，速度提升6倍。

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

2606.16417 2026-06-19 cs.SD eess.AS 新提交专题 70

Joycent: Diffusion-based Accent TTS without Accented Phone Prediction

Joycent: 基于扩散的口音语音合成，无需口音音素预测

Xintong Wang, Ye Wang

专题命中其他图像生成：扩散模型用于口音语音合成

AI总结提出Joycent，一种基于扩散模型的口音TTS方法，直接从标准音素序列和语音参考合成口音语音，无需口音音素预测，通过条件层归一化集成口音和说话人表征，并引入WhisAID口音识别模型，在保持说话人身份的同时提升口音自然度。

URL PDF HTML

2606.19957 2026-06-19 cs.CY 新提交专题 60

Modest, artistic, and radical solutions to the environmental impact of image-generating machine learning

图像生成机器学习的环境影响：温和、艺术与激进的解决方案

Laura U. Marks, Jess MacCormack, Kehui Li

专题命中其他图像生成：讨论图像生成ML的环境影响与解决方案

AI总结针对图像生成ML的高能耗问题，从计算机工程、媒体研究和艺术角度探索非精确计算、小模型、低精度硬件等解决方案，并提出真实成本核算。

Comments Paper in Proceedings of LIMITS 2026: 12th Workshop on Computing within Limits, 2026-06-23-25, Online

URL PDF HTML

2507.04081 2026-06-19 cs.NI 版本更新专题 60

Graph Diffusion-Based AeBS Deployment and Resource Allocation in RSMA-Enabled URLLC Low-Altitude Wireless Networks

基于图扩散的RSMA使能URLLC低空无线网络中AeBS部署与资源分配

Xudong Wang, Lei Feng, Jiacheng Wang, Hongyang Du, Changyuan Zhao, Wenjing Li, Ping Zhang

专题命中其他图像生成：图扩散模型用于资源分配，弱相关。

AI总结针对低空无线网络中频谱受限和同频干扰问题，提出基于速率分割多址接入（RSMA）的传输设计，并利用生成式图扩散模型联合优化AeBS部署、用户关联和资源分配，以最大化总速率和覆盖率。

Comments 13 pages, 9 figures

URL PDF HTML

2606.19701 2026-06-19 astro-ph.HE 新提交专题 55

On the Contribution of Local Sources to the Galactic Cosmic-Ray Spectrum: An Exact Series Solution for Two-Zone Diffusion

论局部源对银河宇宙射线谱的贡献：两区扩散的精确级数解

Zi-Hang Liu, Yiwei Bao, Ruo-Yu Liu

专题命中其他图像生成：局部源对宇宙射线谱贡献的扩散模型

AI总结本文推导了两区扩散模型的级数格林函数，通过蒙特卡洛模拟发现近源慢扩散使局部源贡献概率从0.4%升至1.7-2.2%，但统计困难仍存，且局部源解释高度依赖模型。

Comments submitted to PRD, The code accompanying this paper will be released soon

URL PDF HTML

2606.15015 2026-06-19 cs.CV cs.AI 新提交专题 70

NEXUS: Neural Energy Fields for Physically Consistent Contact-Rich 3D Object Dynamics

NEXUS: 用于物理一致的高接触3D物体动力学的神经能量场

Qizhen Ying, Guangming Wang, Yangchen Pan, Victor Adrian Prisacariu, Brian Sheil, Yixiong Jing

专题命中可控生成：指导物理一致视频生成

AI总结提出神经能量场框架NEXUS，通过标量能量和耗散项建模保守与非保守动力学，提升高接触3D场景下的长时程轨迹精度并指导视频生成。

Comments 18 pages, 4 figures, 6 tables. Preprint

URL PDF HTML

2601.21081 2026-06-19 cs.CV 版本更新专题 70

Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

思维形状：通过视觉思维链进行渐进式物体组装

Yu Huo, Siyu Zhang, Kun Zeng, Haoyue Liu, Owen Lee, Junlin Chen, Yuquan Lu, Yifu Guo, Yaodong Liang, Xiaoying Tang

专题命中可控生成：文本到图像生成中的组合结构约束

AI总结提出Shape-of-Thought (SoT)框架，通过视觉思维链在渲染2D域中逐步组装形状，解决文本到图像生成中的组合结构约束问题，在组件计数和结构拓扑上显著优于直接生成。

Comments ICML2026

URL PDF HTML

2503.01425 2026-06-19 cs.GR cs.CV 版本更新专题 70

MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing

MeshPad: 交互式草图条件艺术家风格网格生成与编辑

Haoxuan Li, Ziya Erkoc, Lei Li, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner

专题命中可控生成：草图条件生成3D网格，涉及可控生成。

AI总结提出MeshPad，一种基于草图输入的交互式3D网格生成与编辑方法，通过分解为网格区域的删除和添加操作，结合Transformer和顶点对齐推测策略，实现快速迭代编辑，在Chamfer距离上提升22%以上质量，并获90%用户偏好。

Comments Project page: https://derkleineli.github.io/meshpad/ Video: https://www.youtube.com/watch?v=_T6UTGTMZ1E

URL PDF HTML

2606.20095 2026-06-19 cs.CV 新提交专题 60

Stitching and dimensionality effects on large artificially generated volume datasets

拼接和维度对大规模人工生成体数据集的影响

Lucas von Chamier, Jan Philipp Albrecht, Dagmar Kainmüller

专题命中图像修复：拼接伪影影响生成质量

AI总结研究深度学习生成大图像时的拼接伪影对风格迁移的影响，比较2D与3D模型，发现FID无法检测影响下游任务的细微伪影，3D模型略优但计算成本高。

URL PDF HTML

1. 图像编辑 3 篇

Cinematic Compositing Using Character-Environment-Harmonized Video Generation Models

Relighting as a Probe of Visual Priors via Augmented Latent Intrinsics

Thinking in Boxes: 3D Editing in Real Images Made Easy

2. 文生图 3 篇

Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers

How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

3. 其他图像生成 4 篇

Joycent: Diffusion-based Accent TTS without Accented Phone Prediction

Modest, artistic, and radical solutions to the environmental impact of image-generating machine learning

Graph Diffusion-Based AeBS Deployment and Resource Allocation in RSMA-Enabled URLLC Low-Altitude Wireless Networks

On the Contribution of Local Sources to the Galactic Cosmic-Ray Spectrum: An Exact Series Solution for Two-Zone Diffusion

4. 可控生成 3 篇

NEXUS: Neural Energy Fields for Physically Consistent Contact-Rich 3D Object Dynamics

Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing

5. 图像修复 1 篇

Stitching and dimensionality effects on large artificially generated volume datasets