人教版高一教材电子版上册


人教版高一教材电子版上册  

港中文MMLab团队的创新贡献:拓展思维模式的推理增强文生图模型

随着大语言模型(LLMs)在解数学题和写代码等复杂任务上展现出的高水平能力,强化学习(RL)结合全面的思维链(CoT)逐步分析问题并进行推理的方法已经引起了广泛关注。这种推理模式在解决一些需要“动脑筋”的事情上表现出了显著的优势。同样地,如果将强化学习应用于图片理解的多模态大模型(LMMs),诸如图片理解或文生图等任务将更加出色地完成。

尽管在实际操作中总会遇到一些问题,如如何将语义和生成结合起来以及如何对图像生成的结果进行质量评估等,但港中文MMLab团队已经在相关领域中进行了初步的尝试和探索。团队在前期工作Image Generation with CoT的基础上,首次提出了双层级的CoT推理框架和BiCoT-GRPO强化学习方法,无需额外模型即可实现文本到图像生成的推理应用。

图片生成的双层推理解法包含两个不同层次的CoT推理:Semantic-level CoT和Token-level CoT。Semantic-level CoT负责设计图像的全局结构,优化这一过程可以在生成图像Token之前显式地对于Prompt进行规划和推理,使生成更容易。而Token-level CoT则是图片Token的逐块生成过程,专注于底层的细节,如像素的生成和相邻Patch之间的视觉连贯性。

针对如何协调与融合这两个层次的CoT的问题,港中文团队从一个统一LMM(ULM)开始,增强它以将Semantic-level CoT以及Token-level CoT统一到一个框架中用于文本生成图像。在此基础上,团队提出了BiCoT-GRPO方法,一种使用强化学习的方法来联合优化ULM的两个层次的CoT。这一方法首次在单一RL步骤中协同优化语义规划与像素生成,相比起分阶段训练效率更高、计算成本更低。

港中文团队还提出使用多个不同的视觉专家模型的集成来作为奖励模型,以解决图像生成中不存在标准化的规则的问题。这种奖励设计从多个维度评估生成的图像以确保可靠的质量评估,并作为一种正则化方法来防止ULM过拟合到某个单一的奖励模型。

根据团队的研究结果,T2I-R1模型能够通过推理Image Prompt背后的真实意图来生成更符合人类期望的结果,并在处理不寻常场景时展现出增强的鲁棒性。定量的实验结果也表明了该方法的有效性,T2I-R1在多个基准测试上取得了显著的成绩。

T2I-R1的出现证明了CoT在图像生成中的有效性,实现了高效可拓展的生成架构,为多模态生成任务提供了新的推理增强范式。未来,T2I-R1的框架有望进一步拓展至视频生成、3D内容合成等复杂序列生成任务,推动生成式AI向”能思考、会创作”的通用智能体演进。

对于关注前沿科技动态的朋友们来说,此次港中文MMLab团队的突破无疑为我们带来了新的思考和启示。在未来的人工智能发展中,我们期待更多类似的创新成果的出现。

(来源:量子位 转载自公众号QbitAI)

  人教版高一教材电子版上册