视觉与机器人
图像生成
图像生成、文生图、图像编辑、扩散模型和可控生成。
FrozenDrive: Zero-Shot Text-Guided Driving Scene Generation and Data Augmentation with Parameter-Free Frozen Diffusion Model
FrozenDrive: 零样本文本引导驾驶场景生成与数据增强的无参数冻结扩散模型
专题命中 可控生成 :文本引导的驾驶场景生成
AI总结 提出FrozenDrive框架,利用冻结的预训练扩散模型,通过知识保留的时空注意力实现多视图一致性和时间连贯性,无需微调即可生成恶劣天气下的驾驶场景,提升自动驾驶模型鲁棒性。
Comments Accepted to ECCV 2026
Holo-World: Unified Camera, Object and Weather Control for Video World Model
Holo-World: 视频世界模型的统一相机、物体和天气控制
专题命中 可控生成 :相机、物体、天气联合控制
AI总结 提出Holo-World,一种从单张图像联合控制相机、物体运动和天气的统一视频世界模型,通过场景适配器和解耦CFG实现世界保持与天气迁移。
Comments Project Page: \url{https://xiangchenyin.github.io/Holo-World} Code: \url{https://github.com/XiangchenYin/Holo-World}
Text2Structure3D: Graph-Based Generative Modeling of Equilibrium Structures with Diffusion Transformers
Text2Structure3D: 基于扩散变换器的图生成建模平衡结构
专题命中 可控生成 :从文本生成平衡结构图,属于可控结构生成。
AI总结 提出Text2Structure3D,结合潜在扩散、变分图自编码器和图变换器,从自然语言提示生成接近平衡状态的结构图,并通过残余力优化确保完全满足静力平衡。
Journal ref Results in Engineering 31 (2026) 111375
MeshPad: Interactive Sketch-Conditioned Artist-Reminiscent Mesh Generation and Editing
MeshPad: 交互式草图条件艺术家风格网格生成与编辑
专题命中 可控生成 :草图条件生成3D网格,涉及可控生成。
AI总结 提出MeshPad,一种基于草图输入的交互式3D网格生成与编辑方法,通过分解为网格区域的删除和添加操作,结合Transformer和顶点对齐推测策略,实现快速迭代编辑,在Chamfer距离上提升22%以上质量,并获90%用户偏好。
Comments Project page: https://derkleineli.github.io/meshpad/ Video: https://www.youtube.com/watch?v=_T6UTGTMZ1E