图像生成

2603.07236 2026-06-19 cs.CV 版本更新专题 85

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

HY-WU (第一部分): 一种可扩展的功能性神经记忆框架及其在文本引导图像编辑中的应用

Mengxuan Wu, Xuanlei Zhao, Ziqiao Wang, Ruicheng Feng, Zhangyang Wang, Kai Wang

专题命中图像编辑：提出HY-WU框架用于文本引导图像编辑。

AI总结提出HY-WU框架，通过功能性神经记忆模块即时生成实例特定权重更新，避免共享权重覆盖导致的干扰，解决持续学习与个性化中的灾难性遗忘问题。

URL PDF HTML

2602.01391 2026-06-19 cs.CV 版本更新专题 70

Relighting as a Probe of Visual Priors via Augmented Latent Intrinsics

通过增强潜在本征属性将重光照作为视觉先验的探针

Xiaoyan Xing, Xiao Zhang, Sezer Karaoglu, Theo Gevers, Anand Bhattad

专题命中图像编辑：重光照属于图像编辑范畴

AI总结提出增强潜在本征属性（ALI）方法，融合密集像素对齐视觉特征到潜在本征重光照模型，平衡语义与光度保真度，提升复杂材质重光照质量。

Comments Camera-ready version for ICML 2026. Project page: https://augmented-latent-intrinsics.github.io

URL PDF HTML

2601.21542 2026-06-19 cs.CV cs.AI 版本更新专题 85

Bi-Anchor Interpolation Solver for Accelerating Generative Modeling

双锚点插值求解器加速生成建模

Hongxu Chen, Hongxiang Li, Zhen Wang, Long Chen

专题命中扩散模型：加速生成建模，双锚点插值求解器

AI总结提出BA-solver，通过轻量SideNet（1-2%主干大小）学习双向时间感知和双锚点速度积分，在不重新训练主干的情况下，以极低训练成本实现10步内达到100+步Euler求解器质量，支持即插即用。

URL PDF HTML

2603.20455 2026-06-19 math.OC 版本更新专题 80

Time-Reversed BSDEs for Accurate Gradient Estimation in Diffusion Models

时间反向BSDE用于扩散模型中的精确梯度估计

Yuhang Mei, Amirhossein Taghvaei

专题命中扩散模型：扩散模型梯度估计的BSDE方法

AI总结针对扩散模型微调中梯度估计不稳定问题，提出基于时间反向BSDE的自适应伴随过程，降低方差并提高稳定性。

Comments 10 pages, 3 figures

URL PDF HTML

2601.03112 2026-06-19 eess.IV cs.CV 版本更新专题 80

DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations

DiT-JSCC：基于扩散变换器与语义表示的深度JSCC再思考

Kailin Tan, Jincheng Dai, Sixian Wang, Guo Lu, Shuo Shao, Kai Niu, Wenjun Zhang, Ping Zhang

专题命中扩散模型：利用扩散变换器作为生成解码器

AI总结提出DiT-JSCC框架，联合学习语义优先表示编码器和扩散变换器生成解码器，通过粗细粒度条件解码和基于Kolmogorov复杂度的自适应带宽分配，在极端信道条件下提升语义一致性与传输效率。

Comments 14pages, 14figures, 2tables

URL PDF HTML

2601.12870 2026-06-19 cs.CE 版本更新专题 75

Text2Structure3D: Graph-Based Generative Modeling of Equilibrium Structures with Diffusion Transformers

Text2Structure3D: 基于扩散变换器的图生成建模平衡结构

Lazlo Bleker, Zifeng Guo, Kaleb E. Smith, Kam-Ming Mark Tam, Karla Saldaña Ochoa, Pierluigi D'Acunto

专题命中可控生成：从文本生成平衡结构图，属于可控结构生成。

AI总结提出Text2Structure3D，结合潜在扩散、变分图自编码器和图变换器，从自然语言提示生成接近平衡状态的结构图，并通过残余力优化确保完全满足静力平衡。

Journal ref Results in Engineering 31 (2026) 111375

URL PDF HTML

2601.21081 2026-06-19 cs.CV 版本更新专题 70

Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

思维形状：通过视觉思维链进行渐进式物体组装

Yu Huo, Siyu Zhang, Kun Zeng, Haoyue Liu, Owen Lee, Junlin Chen, Yuquan Lu, Yifu Guo, Yaodong Liang, Xiaoying Tang

专题命中可控生成：文本到图像生成中的组合结构约束

AI总结提出Shape-of-Thought (SoT)框架，通过视觉思维链在渲染2D域中逐步组装形状，解决文本到图像生成中的组合结构约束问题，在组件计数和结构拓扑上显著优于直接生成。

Comments ICML2026

URL PDF HTML

2503.01425 2026-06-19 cs.GR cs.CV 版本更新专题 70

MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing

MeshPad: 交互式草图条件艺术家风格网格生成与编辑

Haoxuan Li, Ziya Erkoc, Lei Li, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner

专题命中可控生成：草图条件生成3D网格，涉及可控生成。

AI总结提出MeshPad，一种基于草图输入的交互式3D网格生成与编辑方法，通过分解为网格区域的删除和添加操作，结合Transformer和顶点对齐推测策略，实现快速迭代编辑，在Chamfer距离上提升22%以上质量，并获90%用户偏好。

Comments Project page: https://derkleineli.github.io/meshpad/ Video: https://www.youtube.com/watch?v=_T6UTGTMZ1E

URL PDF HTML

2605.10898 2026-06-19 cs.HC 版本更新专题 70

How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy

创意人士如何接近生成式AI图像生成：结构化指导、自我实验与创意自主之间的张力

Haidan Liu, Isabelle Kwan, Taiga Okuma, Jeffrey Loverock, Nicholas Vincent, Parmit K Chilana

专题命中文生图：研究创意人士使用GenAI图像生成工具的行为

AI总结研究探讨创意人士在使用生成式AI图像工具时如何平衡结构化指导与自我实验，发现尽管指导有助于理解AI，但许多人仍倾向于自我探索以保持创意自由。

Comments Accepted at ACM Creativity & Cognition 2026

URL PDF HTML

2506.06952 2026-06-19 cs.CV 版本更新专题 70

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

LaTtE-Flow: 基于层间时间步专家流的Transformer

Ying Shen, Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang

专题命中文生图：提出高效架构实现图像生成，速度提升6倍。

AI总结提出LaTtE-Flow，一种基于预训练视觉语言模型的高效统一架构，通过层间时间步专家流和条件残差注意力机制，实现图像理解与生成，生成速度提升约6倍。

Comments Unified multimodal model, Flow-matching

URL PDF HTML

2507.04081 2026-06-19 cs.NI 版本更新专题 60

Graph Diffusion-Based AeBS Deployment and Resource Allocation in RSMA-Enabled URLLC Low-Altitude Wireless Networks

基于图扩散的RSMA使能URLLC低空无线网络中AeBS部署与资源分配

Xudong Wang, Lei Feng, Jiacheng Wang, Hongyang Du, Changyuan Zhao, Wenjing Li, Ping Zhang

专题命中其他图像生成：图扩散模型用于资源分配，弱相关。

AI总结针对低空无线网络中频谱受限和同频干扰问题，提出基于速率分割多址接入（RSMA）的传输设计，并利用生成式图扩散模型联合优化AeBS部署、用户关联和资源分配，以最大化总速率和覆盖率。

Comments 13 pages, 9 figures

URL PDF HTML

1. 图像编辑 2 篇

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Relighting as a Probe of Visual Priors via Augmented Latent Intrinsics

2. 扩散模型 3 篇

Bi-Anchor Interpolation Solver for Accelerating Generative Modeling

Time-Reversed BSDEs for Accurate Gradient Estimation in Diffusion Models

DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations

3. 可控生成 3 篇

Text2Structure3D: Graph-Based Generative Modeling of Equilibrium Structures with Diffusion Transformers

Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing

4. 文生图 2 篇

How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy

LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer

5. 其他图像生成 1 篇

Graph Diffusion-Based AeBS Deployment and Resource Allocation in RSMA-Enabled URLLC Low-Altitude Wireless Networks