视觉与机器人
图像生成
图像生成、文生图、图像编辑、扩散模型和可控生成。
1. 图像编辑 3 篇
Relighting as a Probe of Visual Priors via Augmented Latent Intrinsics
通过增强潜在本征属性将重光照作为视觉先验的探针
专题命中 图像编辑 :重光照属于图像编辑范畴
AI总结 提出增强潜在本征属性(ALI)方法,融合密集像素对齐视觉特征到潜在本征重光照模型,平衡语义与光度保真度,提升复杂材质重光照质量。
Comments Camera-ready version for ICML 2026. Project page: https://augmented-latent-intrinsics.github.io
Thinking in Boxes: 3D Editing in Real Images Made Easy
Thinking in Boxes: 真实图像中的3D编辑变得简单
专题命中 图像编辑 :基于3D盒子的图像编辑方法。
AI总结 提出使用3D盒子作为结构化规范,通过用户提供输入和输出盒子来精确控制真实图像中的平移、旋转、缩放和视角变化,同时保持场景和物体身份,恢复未见的物体区域。
Comments Project Page: https://thinking-in-boxes.github.io/
2. 文生图 3 篇
Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers
使用整流流变换器扩展胸部X光片的生成式基础模型
专题命中 文生图 :可控胸部X光片合成,属于图像生成。
AI总结 提出首个十亿参数级胸部X光片生成基础模型,通过整流流变换器实现高保真可控合成,显著提升合成图像与真实图像的不可区分性。
Comments Project page: https://RadiT-project.github.io
How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy
创意人士如何接近生成式AI图像生成:结构化指导、自我实验与创意自主之间的张力
专题命中 文生图 :研究创意人士使用GenAI图像生成工具的行为
AI总结 研究探讨创意人士在使用生成式AI图像工具时如何平衡结构化指导与自我实验,发现尽管指导有助于理解AI,但许多人仍倾向于自我探索以保持创意自由。
Comments Accepted at ACM Creativity & Cognition 2026
3. 其他图像生成 4 篇
Modest, artistic, and radical solutions to the environmental impact of image-generating machine learning
图像生成机器学习的环境影响:温和、艺术与激进的解决方案
专题命中 其他图像生成 :讨论图像生成ML的环境影响与解决方案
AI总结 针对图像生成ML的高能耗问题,从计算机工程、媒体研究和艺术角度探索非精确计算、小模型、低精度硬件等解决方案,并提出真实成本核算。
Comments Paper in Proceedings of LIMITS 2026: 12th Workshop on Computing within Limits, 2026-06-23-25, Online
Graph Diffusion-Based AeBS Deployment and Resource Allocation in RSMA-Enabled URLLC Low-Altitude Wireless Networks
基于图扩散的RSMA使能URLLC低空无线网络中AeBS部署与资源分配
专题命中 其他图像生成 :图扩散模型用于资源分配,弱相关。
AI总结 针对低空无线网络中频谱受限和同频干扰问题,提出基于速率分割多址接入(RSMA)的传输设计,并利用生成式图扩散模型联合优化AeBS部署、用户关联和资源分配,以最大化总速率和覆盖率。
Comments 13 pages, 9 figures
On the Contribution of Local Sources to the Galactic Cosmic-Ray Spectrum: An Exact Series Solution for Two-Zone Diffusion
论局部源对银河宇宙射线谱的贡献:两区扩散的精确级数解
专题命中 其他图像生成 :局部源对宇宙射线谱贡献的扩散模型
AI总结 本文推导了两区扩散模型的级数格林函数,通过蒙特卡洛模拟发现近源慢扩散使局部源贡献概率从0.4%升至1.7-2.2%,但统计困难仍存,且局部源解释高度依赖模型。
Comments submitted to PRD, The code accompanying this paper will be released soon
4. 可控生成 3 篇
MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing
MeshPad: 交互式草图条件艺术家风格网格生成与编辑
专题命中 可控生成 :草图条件生成3D网格,涉及可控生成。
AI总结 提出MeshPad,一种基于草图输入的交互式3D网格生成与编辑方法,通过分解为网格区域的删除和添加操作,结合Transformer和顶点对齐推测策略,实现快速迭代编辑,在Chamfer距离上提升22%以上质量,并获90%用户偏好。
Comments Project page: https://derkleineli.github.io/meshpad/ Video: https://www.youtube.com/watch?v=_T6UTGTMZ1E