沙巴体育世界杯中国官网首页 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后检修框架

发布日期：2026-05-27 16:19 来源：未知作者：admin 浏览次数：

VeRL-Omni 是一个面向多模态生成模子的通用 RL 后检修框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。掩盖扩散 transformer（Qwen-Image）、夹杂 AR-DiT（Qwen-Omni）、长入融会 + 生成（BAGEL、HunyuanImage-3.0）等架构。

多模态 rollout 走 vLLM-Omni 的异步高糊涂 serving，VLM-as-judge / OCR 奖励模子走 vLLM 推理，并与 rollout、检修 overlap。Qwen-Image OCR FlowGRPO 演示中，把奖励模子放到零丁 GPU 可将每步 wall-clock 时刻镌汰约 14%。

环球体育官网登录入口

VeRL-Omni 架构

代码： github.com/verl-project/verl-omni

文档： verl-omni.readthedocs.io

vLLM 官方博客：vllm.ai/blog/verl-omni

为什么需要 VeRL-Omni

RL 仍是成为把大型生成模子对皆到东谈主类偏好与下流任务奖励的有劲期间。昔时一年 LLM 的 RL 检修栈赶紧演进，但多模态生成 RL—— 掩盖图像 / 视频 / 音频融会与生成的扩散和全模态模子 —— 还有几个环节缺口：

扩散与全模态膨胀：把 verl 的天真性和性能延长到多模态、非自转头 RL 检修的天下，包括扩散 transformer 骨干（Qwen-Image）、夹杂 AR-DiT 架构（Qwen-Omni）、长入融会 + 生成模子（BAGEL、HunyuanImage-3.0）；

异构 rollout 活水线：Rollout 是聚合 latent 空间里的去噪轨迹，而不是 token 序列；单次 rollout 还可能调用多个异构模子组件、走多阶段活水线（text encoder → DiT → VAE）；

复杂的负载退换：多模态 RL 检修的奖励函数自己等于多模态模子（VLM judge、OCR scorer 等），多模态生成 rollout 的峰值显存又比文本生成高得多，把这些职责流编排好并不轻便。

环节特质

高效的多模态 rollout：集成 vLLM-Omni 的异步高糊涂多模态生成 serving，精度与 diffusers 抓平。VeRL-Omni 与 vLLM-Omni 协同，通过 step-wise continuous batching、embedding caching 等抓续优化 rollout 后果。

天确实奖励引擎：同期撑抓基于限定的奖励与基于模子的奖励（如 VLM-as-judge for OCR）。集成 vLLM 用于高效的 VLM / LLM 奖励模子推理。奖励狡计与 rollout、检修历程 overlap，镌汰端到端延迟。

模块化检修后端：提供多种 trainer（DiffusersFSDP / Megatron / VeOmni），针对扩散和全模态模子内置优化，便于接入不同并行政策（FSDP / USP / TP）。

粗俗的硬件兼容：同期撑抓 NVIDIA GPU 和昇腾 NPU，部署可在多种硬件后端之间天露出换。

端到端检修 recipe 与基准：提供参考性能浪漫；收成于上述特质，检修糊涂不错作念得很高。

算法与模子撑抓

上手指南

安设

详见安设文档：

https://verl-omni.readthedocs.io/en/latest/start/install.html

检修扩散模子

examples 目次（https://github.com/verl-project/verl-omni/tree/main/examples）提供了不同 RL 算法 trainer 的启动剧本，掩盖图像 / 音频 / 视频融会与生成任务。检修性能与浪漫不错通过 wandb 追踪。

Demo：Qwen-Image FlowGRPO 后检修

在 flowgrpo 示例中，团队用 OCR 奖励任务检修 Qwen-Image。奖励模子采用 Qwen3-VL-8B-Instruct，通过读取生成图像里的渲染翰墨、与数据集 ground truth 比对，对生成图像评分。

flowgrpo 示例：https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法追想

FlowGRPO 算法线路

FlowGRPO 线路

FlowGRPO 是面向 flow-matching 模子的在线政策门径。它通过 diffusion policy 模子作念多步 SDE 采样以已毕高效 RL 探索，并采用基于模子的奖励评估生成质地。

检修历程主要分四步：

Rollout 生成：扩散 policy 模子生成样本 rollout，沙巴体育世界杯中国官网首页汇集 log probability 和生成图像的轨迹。

奖励模子打分：奖励模子给每个生成样本打分，用于狡计 trajectory advantage。

政策优化：用 FlowGRPO CLIP-style loss 更新政策，基于 advantage 优化奖励。

权重同步：依期把 trainer 最新的政策权重同步到 rollout worker，确保生成样本响应最新政策。

LoRA 微调

NVIDIA H800 GPU 上的检修糊涂如下：

把奖励模子放到零丁 GPU 上，与政策检修 overlap，每步 wall-clock 时刻镌汰约 14%。

全模子微调

团队还考据了 non-CFG 全模子 Qwen-Image OCR 检修，在 4×NVIDIA H200 上达到 0.510 images/GPU/s，每步约 250 s。

底下不错看到，仅 120 步检修后，生成图像的翰墨渲染质地已有显贵进步。

底下是参考检修弧线，critic reward 与 validation reward 都拘谨褂讪。

无缺检修看法说高见 Training Metrics 文档。

文档地址：https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后续道路图

VeRL-Omni 仍处于活跃迭代的预发布阶段，扩散 RL 中枢栈仍是褂讪。道路图聚焦在膨胀模子 / 算法撑抓，并无间激动高效多模态 RL 检修的规模。

模子撑抓膨胀：跟进开源的扩散和全模态模子，掩盖图像 / 视频 / 音频生成任务以及长入融会 + 生成任务；

算法撑抓膨胀：抓续集成褂讪、先进的 RL 算法（如 DiffusionNFT）；

全异步 RL：在 actor、rollout、reward 之间走端到端异步活水线，超出刻下的异步奖励规模，进一步进步检修糊涂和 GPU/NPU 掌握率；

与 vLLM-Omni 协同优化：生成 rollout 在检修时刻中占比很大，将通过更精细的 vLLM-Omni 集成（并行、量化、batching、退换优化等）无间加快多模态 rollout；

高效全模态 trainer：在 DiffusersFSDPTrainer 以外，经营放出更多针对全模态与扩散模子的高度优化 trainer 引擎，基于 Megatron-core 与 VeOmni；

更广的硬件撑抓：无间打磨昇腾 NPU 旅途，并通过 hardware plugin 系统迎接更多硬件后端。

扩散和全模态 RL 后检修仅仅个启动。VeRL-Omni 团队正在抓续撑抓更多架构与算法沙巴体育世界杯中国官网首页，迎接沿路塑造畴昔。

上一篇：上一篇：沙巴·体育世界杯(中国)官方网站腾讯自研「沧海芯片」夺冠! V2版块行将量产

下一篇：下一篇：沙巴·体育世界杯(中国)官方网站黄果会见世卫组织驻华代表马丁·泰勒

2026世界杯赔率

沙巴体育世界杯中国官网首页 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后检修框架