视觉与机器人
图像生成
图像生成、文生图、图像编辑、扩散模型和可控生成。
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
FreeStyle: 从社区LoRA挖掘中实现风格-内容双参考生成的自由控制
专题命中 文生图 :提出风格-内容双参考图像生成框架
AI总结 提出FreeStyle框架,利用社区LoRA作为锚点,通过两阶段课程学习(注意力级约束和频率感知RoPE调制)解决双参考生成中的内容泄露问题,并引入新基准和评估指标,实现风格对齐、内容保持与泄露抑制的平衡。
Comments 35 pages, 26figures. Project page: https://github.com/Blue2Giant/FreeStyle
BAFIS: Dataset + Framework to assess occupational Bias and Human Preference in modern Text-to-image Models
BAFIS:评估现代文本到图像模型中的职业偏见与人类偏好的数据集与框架
专题命中 文生图 :评估文本到图像模型的职业偏见
AI总结 本研究提出BAFIS平台和包含21,140张多语言提示生成图像的数据集,评估五种文本到图像模型在职业生成中的性别和种族偏见,结合人类偏好反馈,发现系统性偏见并强调纳入人类偏好的必要性。
Comments Accepted at the IEEE Winter Conference on Applications of Computer Vision, WACV 2026
Scaling Generative Foundation Models for Chest Radiography with Rectified Flow Transformers
使用整流流变换器扩展胸部X光片的生成式基础模型
专题命中 文生图 :可控胸部X光片合成,属于图像生成。
AI总结 提出首个十亿参数级胸部X光片生成基础模型,通过整流流变换器实现高保真可控合成,显著提升合成图像与真实图像的不可区分性。
Comments Project page: https://RadiT-project.github.io
How Creatives Approach GenAI Image Generation: Tensions Between Structured Guidance, Self-Experimentation, and Creative Autonomy
创意人士如何接近生成式AI图像生成:结构化指导、自我实验与创意自主之间的张力
专题命中 文生图 :研究创意人士使用GenAI图像生成工具的行为
AI总结 研究探讨创意人士在使用生成式AI图像工具时如何平衡结构化指导与自我实验,发现尽管指导有助于理解AI,但许多人仍倾向于自我探索以保持创意自由。
Comments Accepted at ACM Creativity & Cognition 2026