Wensheng的照片进入R1时刻:香港中国MMLAB发行T2i
发布时间:2025-05-12 10:51
香港大学中国大学MMLAB博士的江民博士,具有理解和开发多模式和多模式推理的单一模型的研究方向。我发表了诸如ICML,ICLR,Neurips,ECCV,ICCV等领先会议的论文。通过研究加固(RL),这些模型使用全面的思维链(COT)在给出答案之前逐渐研究问题,从而大大提高了产出的准确性。最近,在多模式大图像理解模型(LMM)中扩展这种形式也是一项工作。但是,如何将这种小屋推理方法应用于自回归图像生成领域处于探索阶段,而我们以前使用COT(https://github.com/ziyuguo99/image-generation-cot)的工作形象生成使这一领域的第一个机器尝试。与理解图片不同,图像生成的工作需要跨模式文本与图片和Generati进行对齐视觉细节。直到今天,我们提出了基于COT推理和增强研究的两级小屋而生成的T2I-R1-AN图像模型。 Pamagat ng Papel:T2i-R1:Pagpapalakas ng Henerasyon ng Imahe na May可能是pakikipagtulungan smantic-level in token-Level cot cot纸张地址:https://arxiv.org/arxiv.org/pdf/pdf/pdf/2505.00703 codal:孔中国MMLAB,Shhanghai AI Lab Poregenteng patay na pangkalahatang pangkalahatan,IBA没有适用于图像生成的其他级别的小屋:语义 - 语义语义语义cot是在产生图像之前进行图像的文本的推理。负责设计图像的pandaigdigang结构,例如每个对象的外观和位置。优化语义cot可以在生成图像令牌之前立即进行明确的计划和推理,从而使一代更容易。令牌令牌cot是逐个封锁的产生图像令牌的块生成。该过程可以视为COT形式,因为它还基于离散空间中所有以前的令牌释放后续令牌,类似于文本COT。令牌cot更集中在基础细节上,例如像素生成和保持相邻斑块之间的视觉统一性。优化令牌 - cotma它将提高生成图像的质量以及提示和形成图像之间的对齐。但是,尽管认识到了这两个级别的结构:我们如何协调并包括它们?基于目标生成,对自回旋图像(例如VAR)的当前基本模型进行了训练,并且缺乏对语义cot理解所需的文本的明确理解。虽然可以这样做来引入用于提示指示的单个模型(例如LLM),但该方法显着增加了计算成本,复杂性和扩展困难。最近,已经出现了一种趋势单个模型中的视觉理解和产生。基于LMMS,United LMM(ULM)不仅了解视觉输入,而且还可以从文本信号中生成图像。但是,他们的两个功能仍在腐烂,通常在两个独立的阶段进行训练,没有明确的证据表明懂事的素养从这一代中受益。鉴于这些潜力和问题,我们从ULM(Janus-Pro)开始,以增强其为单位形成图像的框架中团结语义 - cot和令牌cot:我们建议BICOT-GRPO,这是一种利用增强学习以优化两个级别的COTE的方法。然后,我们在ULM中重新输入提示和语义示象,以生成图像以获取令牌cot。我们为图像提示室开发了许多语义cot和令牌cot集,并计算组内的相对奖励以获取捕获的图像,从而使用GRPO技术同时优化了两个级别的cot,以同时更改训练更改。不喜欢pagingsondand图片,有明确定义的奖励规则可以理解任务,并且图像生成中没有这样的标准策略。直到今天,我们建议将许多不同视觉模型的集成作为奖励模型。该奖励设计有两个主要目标:它检查了来自多种尺寸的生成图像,以确保可靠的质量分析作为一种正规化方法,以防止ULM根据我们提出的程序中的单个奖励​​模型过度拟合,我们获得了T2I-R1,我们获得了第一个基于文学的文学模型。基于T2i-R1生成的图像的实验,我们发现我们的方法使该模型可以通过在图像提示后面推理图像的目标来产生更多的人类结果,并在处理异常情况时显示出改善的稳定性。同时,实验结果的数量也反映了我们技术的有效性。 T2I-R1在Ench和Wise的T2i-Compbang基准中提高了13%在基线模型中分别分别为19%,并超过了许多子任务中先前的最新模型通量。1。