视觉与机器人
图像生成
图像生成、文生图、图像编辑、扩散模型和可控生成。
1. 文生图 8 篇
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
FreeStyle: 从社区LoRA挖掘中实现风格-内容双参考生成的自由控制
专题命中 文生图 :提出风格-内容双参考图像生成框架
AI总结 提出FreeStyle框架,利用社区LoRA作为锚点,通过两阶段课程学习(注意力级约束和频率感知RoPE调制)解决双参考生成中的内容泄露问题,并引入新基准和评估指标,实现风格对齐、内容保持与泄露抑制的平衡。
Comments 35 pages, 26figures. Project page: https://github.com/Blue2Giant/FreeStyle
BAFIS: Dataset + Framework to assess occupational Bias and Human Preference in modern Text-to-image Models
BAFIS:评估现代文本到图像模型中的职业偏见与人类偏好的数据集与框架
专题命中 文生图 :评估文本到图像模型的职业偏见
AI总结 本研究提出BAFIS平台和包含21,140张多语言提示生成图像的数据集,评估五种文本到图像模型在职业生成中的性别和种族偏见,结合人类偏好反馈,发现系统性偏见并强调纳入人类偏好的必要性。
Comments Accepted at the IEEE Winter Conference on Applications of Computer Vision, WACV 2026
Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers
使用整流流变换器扩展胸部X光片的生成式基础模型
专题命中 文生图 :可控胸部X光片合成,属于图像生成。
AI总结 提出首个十亿参数级胸部X光片生成基础模型,通过整流流变换器实现高保真可控合成,显著提升合成图像与真实图像的不可区分性。
Comments Project page: https://RadiT-project.github.io
2. 扩散模型 7 篇
Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation
像素级残差扩散Transformer:可扩展的3D CT体生成
专题命中 扩散模型 :基于扩散Transformer的3D图像生成
AI总结 提出像素级残差扩散Transformer(PRDiT),通过两阶段训练(局部MLP盲估计器分离低频结构+全局残差扩散Transformer建模高频残差)实现高保真3D CT体生成,在LIDC-IDRI和RAD-ChestCT数据集上优于现有方法。
Comments Accepted at ICLR 2026. Code available at https://github.com/Fredy-Zhang/PRDiT
3. 图像编辑 6 篇
FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows
FlowBender: 面向自校正条件流的反馈感知训练
专题命中 图像编辑 :反馈感知训练用于条件流模型,提升图像翻译和修复
AI总结 针对条件扩散/流模型常违反任务约束的问题,提出FlowBender闭环框架,将对齐误差作为输入训练网络学习校正策略,在图像翻译、复原和3D纹理贴图中同时提升保真度与合理性。
Comments Project page: https://flow-bender.github.io/
Thinking in Boxes: 3D Editing in Real Images Made Easy
Thinking in Boxes: 真实图像中的3D编辑变得简单
专题命中 图像编辑 :基于3D盒子的图像编辑方法。
AI总结 提出使用3D盒子作为结构化规范,通过用户提供输入和输出盒子来精确控制真实图像中的平移、旋转、缩放和视角变化,同时保持场景和物体身份,恢复未见的物体区域。
Comments Project Page: https://thinking-in-boxes.github.io/
4. 可控生成 5 篇
FrozenDrive: Zero-Shot Text-Guided Driving Scene Generation and Data Augmentation with Parameter-Free Frozen Diffusion Model
FrozenDrive: 零样本文本引导驾驶场景生成与数据增强的无参数冻结扩散模型
专题命中 可控生成 :文本引导的驾驶场景生成
AI总结 提出FrozenDrive框架,利用冻结的预训练扩散模型,通过知识保留的时空注意力实现多视图一致性和时间连贯性,无需微调即可生成恶劣天气下的驾驶场景,提升自动驾驶模型鲁棒性。
Comments Accepted to ECCV 2026
Holo-World: Unified Camera, Object and Weather Control for Video World Model
Holo-World: 视频世界模型的统一相机、物体和天气控制
专题命中 可控生成 :相机、物体、天气联合控制
AI总结 提出Holo-World,一种从单张图像联合控制相机、物体运动和天气的统一视频世界模型,通过场景适配器和解耦CFG实现世界保持与天气迁移。
Comments Project Page: \url{https://xiangchenyin.github.io/Holo-World} Code: \url{https://github.com/XiangchenYin/Holo-World}
5. 其他图像生成 4 篇
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
FID 彩票:量化生成模型评估中的隐藏随机性
专题命中 其他图像生成 :研究FID评估中的随机性,影响生成模型评测
AI总结 研究FID作为随机变量在训练和生成种子上的方差,发现重训练比重采样导致更大FID波动,提出新评估协议:使用每类最优引导、报告多个训练种子的误差条。
Comments Website: https://kyutai.org/fid-lottery
How Fragile Are Training-Free AI-Generated Image Detectors? A Controlled Audit of Score Direction, Preprocessing, and Compression
无训练AI生成图像检测器有多脆弱?对分数方向、预处理和压缩的受控审计
专题命中 其他图像生成 :检测AI生成图像,评估生成质量
AI总结 本文通过统一协议审计两种无训练检测分数(自编码重建和噪声扰动特征相似性)及kNN基线,发现实现细节、分数方向选择和数据集格式偏差会导致AUROC变化高达0.38,且简单融合无法超越最佳单分数。
JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
JanusMesh: 通过跨空间去噪实现快速零样本3D视觉错觉生成
专题命中 其他图像生成 :生成双语义3D视觉错觉,属于图像生成
AI总结 提出一种无需训练的快速框架,通过跨空间双分支去噪和视图条件纹理合成,在3-5分钟内生成高真实感双语义3D视觉错觉,优于现有方法。
Comments ECCV 2026. Project page: https://siang1105.github.io/JanusMesh.github.io/