配置参考手册

参数分为三类：

megatron 参数：Relax 会读取 PYTHONPATH 中的 megatron 里设置的所有参数，可以通过传入如 --tensor-model-parallel-size 2 的方式配置 megatron；
sglang 参数：支持环境中安装的 sglang 的所有参数，这些参数需要以 --sglang 起始，例如 --mem-fraction-static 需要通过 --sglang-mem-fraction-static 传入。
Relax 自身的参数请见：relax/utils/arguments.py

常见配置用法和示例请参见快速开始指南。

集群与资源配置

Ray 启动参数

参数	类型	默认值	说明
`--rollout-num-gpus-per-engine`	int	1	每个 SGLang 推理引擎使用的 GPU 数，等同于 SGLang 的 tp_size
`--num-gpus-per-node`	int	8	每个节点的 GPU 数。如果在 colocate 模式下每个节点使用少于 8 张 GPU 需要设置此值
`--resource`	json	-	Ray 资源配置，JSON 格式。`'{"actor":[副本数, 卡数], "rollout":[副本数, 卡数]}'`
`--colocate`	flag	False	是否将推理引擎和训练 Actor 共置在相同的 GPU 上。开启后会同时将 `--offload` 设为 True
`--offload`	flag	False	等同于同时设置 `--offload-train` 和 `--offload-rollout`
`--offload-train`	flag	None	训练期间是否将训练 Actor 卸载到 CPU。`--colocate` 时始终为 True
`--offload-rollout`	flag	None	训练期间是否将 Rollout 生成器卸载到 CPU。`--colocate` 时始终为 True
`--distributed-backend`	str	nccl	分布式后端
`--distributed-timeout-minutes`	int	10	分布式超时时间（分钟）

TransferQueue 数据队列

参数	类型	默认值	说明
`--num-data-storage-units`	int	1	TransferQueue SimpleStorageUnit Actor 数量
`--max-staleness`	int	0	TransferQueue 数据系统的最大陈旧度（0=on-policy）
`--polling-mode`	bool	True	获取 metadata 时是否使用轮询模式
`--num-iters-per-train-update`	int	1	全异步流水线中每个 global batch 的迭代次数

训练后端与模式

参数	类型	默认值	可选值	说明
`--train-backend`	str	megatron	`megatron`	训练后端选择
`--qkv-format`	str	thd	`thd`, `bshd`	Megatron 后端的 QKV 布局。`bshd` 模式下不支持动态批处理，必须指定 `--micro-batch-size`
`--megatron-to-hf-mode`	str	raw	`raw`, `bridge`	Megatron 到 HF 权重转换方式。`bridge` 使用 megatron bridge 自动转换
`--true-on-policy-mode`	flag	False	-	是否启用真正的 on-policy 模式
`--fully-async`	flag	False	-	是否使用全异步训练流水线

检查点配置

参数	类型	默认值	说明
`--hf-checkpoint`	str	None	HuggingFace 模型检查点路径。用于初始化 SGLang 和提供 tokenizer。不需要包含最新的参数，只需与训练模型架构一致
`--ref-load`	str	None	参考模型检查点路径。当 `--load` 未设置时，会作为训练的初始检查点
`--ref-ckpt-step`	int	None	参考模型检查点的步数
`--load`	str	None	Actor 模型检查点加载路径。断点续训时指向此路径
`--save`	str	None	训练中模型的保存路径
`--save-interval`	int	None	模型保存间隔（步数）
`--save-hf`	str	None	Megatron 后端时保存 HuggingFace 格式模型的路径。路径可包含 `{rollout_id}` 占位符
`--async-save`	flag	False	异步保存检查点
`--no-save-optim`	flag	False	保存检查点时不保存优化器状态。减少检查点大小但无法从该检查点恢复训练
`--rotate-ckpt`	flag	False	是否轮换检查点。需要同时设置 `--save`、`--save-interval` 和 `--async-save`
`--max-actor-ckpt-to-keep`	int	None	保留的最大 Actor 检查点数
`--checkpoint-engine-backend`	str	nccl	检查点引擎后端
`--critic-load`	str	None	Critic 模型检查点路径。None 时等于 `--load`
`--critic-save`	str	None	Critic 模型保存路径

数据配置

数据集

参数	类型	默认值	说明
`--prompt-data`	str	None	训练 Prompt 数据集路径
`--input-key`	str	input	数据集中输入字段的 key
`--label-key`	str	None	数据集中标签字段的 key
`--metadata-key`	str	metadata	数据集中元数据字段的 key
`--tool-key`	str	tools	应用 Chat Template 时的 tools 字段 key
`--apply-chat-template`	flag	False	将输入作为 OpenAI message 格式应用 Chat Template
`--apply-chat-template-kwargs`	json	{}	Chat Template 的额外参数
`--system-prompt`	str	None	可选的系统提示词，会添加到用户输入之前。最终消息为 `<system_prompt> + <dataset_prompt>`
`--rollout-shuffle`	flag	False	Rollout 时是否打乱 Prompt 顺序
`--rollout-seed`	int	42	Rollout 的随机种子，用于打乱 Prompt 和随机采样
`--use-streaming-dataset`	flag	False	使用流式数据集以节省内存
`--streaming-buffer-size`	int	10000	流式数据集的缓冲区大小
`--prefetch-chunk-size`	int	32	每轮预取时分派到线程池的样本数。较大的值可以提高吞吐量但也会增加内存压力。仅在设置了 `--use-streaming-dataset` 且数据集包含多模态数据时生效
`--prefetch-max-cached`	int	256	预取缓存中保留的最大预加载样本数。缓存满时后台预取线程会暂停，直到消费者释放空间。设为 0 可禁用预取。仅在设置了 `--use-streaming-dataset` 且数据集包含多模态数据时生效
`--prefetch-num-workers`	int	1	预取缓冲区中用于 I/O 密集型媒体解码（视频/图像）的并行工作线程数。设为 1 可序列化所有解码操作（对 FFmpeg 非线程安全问题最安全）。较高值可提高并行度，但在某些平台上可能触发 EAGAIN 错误。仅在启用预取时生效
`--custom-prompt-path`	str	None	自定义 Prompt 转换函数的 Python 点分导入路径。该函数在对话/多模态处理之前调用。函数签名：`def custom_fn(prompt, data: dict) -> prompt`。示例：`my_package.prompt_utils.add_prefix`
`--data-source-path`	str	`relax.engine.rollout.data_source.RolloutDataSourceWithBuffer`	Rollout 数据源类路径
`--start-rollout-id`	int	None	起始 Rollout 步数。未设置时会尝试从 `--load` 的检查点中读取

多模态数据

参数	类型	默认值	说明
`--multimodal-keys`	json	None	多模态数据字段映射。示例：`'{"image": "image_key"}'`
`--use-audio-in-video`	flag	False	是否处理视频中的音频
`--image-max-token-num`	int	None	图像处理的最大 Token 数。未设置时使用默认值 16384
`--image-min-token-num`	int	None	图像处理的最小 Token 数。未设置时使用默认值 4
`--video-min-token-num`	int	None	视频帧处理的最小 Token 数。未设置时使用默认值 128
`--video-max-token-num`	int	None	视频帧处理的最大 Token 数。未设置时使用默认值 768
`--video-fps`	float	None	视频处理的目标 FPS。未设置时使用默认值 2.0
`--video-fps-min-frames`	int	None	视频处理的最少帧数。未设置时使用默认值 4
`--video-fps-max-frames`	int	None	视频处理的最多帧数。未设置时使用默认值 768
`--image-resize-scale-factor`	int	None	图像缩放尺寸对齐因子。默认使用 `patch_size * spatial_merge_size`（通常为 28）。设为 0 可禁用对齐
`--audio-sample-rate`	int	None	音频处理的采样率。未设置时使用默认值 16000
`--frame-factor`	int	None	帧数对齐因子。未设置时使用默认值 2
`--mm-processor-pool-size`	int	0	多模态处理器池大小。0（默认）禁用进程池，使用 ThreadPoolExecutor。设置为正整数时，创建指定数量 worker 的 ProcessPoolExecutor，实现无 GIL 竞争的真正并行

Rollout 配置

采样参数

参数	类型	默认值	说明
`--num-rollout`	int	None	总 Rollout 轮数。与 `--num-epoch` 二选一
`--num-epoch`	int	None	训练 Epoch 数。会根据数据集大小自动计算 `num_rollout`。若同时设置 `--num-rollout` 则此参数被忽略
`--rollout-batch-size`	int	必填	每轮采样的 Prompt 数量。总数据量 = `rollout-batch-size * n-samples-per-prompt`
`--n-samples-per-prompt`	int	1	每个 Prompt 生成的响应数量
`--rollout-temperature`	float	1.0	推理引擎的采样温度
`--rollout-top-p`	float	1.0	推理引擎的 Top-p 采样参数
`--rollout-top-k`	int	-1	推理引擎的 Top-k 采样参数。-1 表示不使用
`--rollout-max-response-len`	int	None	响应的最大长度，等同于 SGLang 的 `max_tokens`
`--rollout-max-prompt-len`	int	None	Prompt 的最大长度。设置后会在数据集初始化时过滤长 Prompt
`--rollout-max-context-len`	int	None	推理引擎的最大上下文长度。不应超过 HuggingFace 模型 `config.json` 中的 `max_position_embeddings`
`--rollout-stop`	str (列表)	None	Rollout 时的停止词。可以是一个或多个字符串
`--rollout-stop-token-ids`	int (列表)	None	Rollout 时的停止 Token ID
`--rollout-skip-special-tokens`	flag	False	响应中是否跳过特殊 Token

过采样与动态过滤

参数	类型	默认值	说明
`--over-sampling-batch-size`	int	None	采样批次粒度。None 时使用 `rollout-batch-size` 的值。必须 >= `rollout-batch-size`
`--dynamic-sampling-filter-path`	str	None	动态采样过滤函数路径。用于实现类似 DAPO 的过滤（如排除全部正确或全部错误的样本）。示例：`relax.engine.filters.dynamic_sampling_filters.check_reward_nonzero_std`
`--buffer-filter-path`	str	None	Buffer 过滤函数路径。函数签名：`list[list[Sample]]` -> `list[list[Sample]]`

Partial Rollout

参数	类型	默认值	说明
`--partial-rollout`	flag	False	启用部分 Rollout。未完成的样本会被回收到数据缓冲区，适合长响应场景
`--partial-rollout-max-aborted-count`	int	None	样本被中断的最大次数。达到阈值后不再中断该样本，保证其完成生成
`--mask-offpolicy-in-partial-rollout`	flag	False	部分 Rollout 中是否 mask 之前的生成内容。设置后只有 on-policy 生成的 Token 参与训练

权重更新

参数	类型	默认值	说明
`--update-weight-buffer-size`	int	512MB	权重更新的缓冲区大小（字节）。分块更新权重，对 MoE 模型有用
`--update-weights-interval`	int	1	权重更新间隔
`--keep-old-actor`	flag	False	是否在训练过程中保留 Rollout 模型

外部推理引擎

参数	类型	默认值	说明
`--rollout-external`	flag	False	使用外部 SGLang 实例而非框架内启动的实例
`--rollout-external-engine-addrs`	str (列表)	None	外部引擎的地址和端口列表

SGLang 引擎参数

更多参数请参照 SGLang 官方文档。

参数	类型	默认值	说明
`--sglang-mem-fraction-static`	float	-	SGLang 静态内存分配比例
`--sglang-profile`	flag	False	启用 SGLang 引擎的 torch profiling。在 Rollout 推理期间触发，每步保存 profile trace
`--sglang-profile-steps`	int (列表)	None	指定要进行 SGLang profiling 的绝对 rollout step ID（0-indexed）列表。优先级高于 `--sglang-profile-step-start/end`。例如 `--sglang-profile-steps 3 10 50`
`--sglang-profile-step-start`	int	None	SGLang profiling 的起始 rollout step（inclusive，0-indexed）。与 `--sglang-profile-step-end` 配合指定连续范围。设置了 `--sglang-profile-steps` 时被忽略
`--sglang-profile-step-end`	int	None	SGLang profiling 的结束 rollout step（inclusive，0-indexed）。与 `--sglang-profile-step-start` 配合指定连续范围。设置了 `--sglang-profile-steps` 时被忽略。例如 start=2, end=4 会采集 step 2, 3, 4
`--sglang-profile-output-dir`	str	None	SGLang profile trace 的输出目录。默认使用 `traces/<tb_experiment_name>/sglang_trace`
`--sglang-profile-num-steps`	int	3	每轮 Rollout 中要 profile 的 SGLang 前向步数。-1 表示 profile 整个 Rollout 步，直到调用 `stop_profile`
`--sglang-profile-activities`	str (列表)	["CPU", "GPU"]	要 profile 的活动类型（例如 `CPU GPU`）
`--sglang-profile-by-stage`	flag	False	按阶段（prefill/decode）分别进行 profile
`--sglang-profile-with-stack`	flag	False	在 profile trace 中记录调用栈
`--sglang-profile-record-shapes`	flag	False	在 profile trace 中记录张量形状

自定义 Rollout 函数

参数	类型	默认值	说明
`--rollout-function-path`	str	`relax.engine.rollout.sglang_rollout.generate_rollout`	Rollout 生成函数路径
`--custom-generate-function-path`	str	None	自定义 generate 函数，替换默认 rollout 中的 generate 函数。适合实现多轮对话、function calling 等特殊逻辑
`--rollout-data-postprocess-path`	str	None	Rollout 数据后处理函数，在获取完所有数据（包含 log_probs）后调用。可用于更新 loss mask
`--custom-rollout-log-function-path`	str	None	自定义 Rollout 日志函数
`--custom-eval-rollout-log-function-path`	str	None	自定义评估 Rollout 日志函数

批处理配置

参数	类型	默认值	说明
`--global-batch-size`	int	None	全局批次大小。定义执行一次参数更新（optimizer.step）所需的样本量
`--micro-batch-size`	int	1	微批次大小。开启 `--use-dynamic-batch-size` 后该值被忽略
`--num-steps-per-rollout`	int	None	每次 Rollout 的训练步数。等效于设置 GBS = `rollout_batch_size * n_samples_per_prompt / num_steps_per_rollout`
`--use-dynamic-batch-size`	flag	False	启用动态批处理。根据样本长度动态打包，使每个 micro-batch 的总 Token 数接近 `--max-tokens-per-gpu` 限制
`--max-tokens-per-gpu`	int	None	每个 GPU 的最大 Token 数。启用动态批处理时必须设置。使用 CP 时应设为约 `max_response_len / cp_size`
`--log-probs-max-tokens-per-gpu`	int	None	计算 log probs 时每个 GPU 的最大 Token 数。None 时等于 `max-tokens-per-gpu`
`--balance-data`	flag	False	使用 `karmarkar_karp` 算法在数据并行 rank 间平衡 Token 数量。仅在 colocate 模式下可用，不支持 `--fully-async`。注意同一 Prompt 的不同响应可能被分到不同训练步

并行配置

参数	类型	默认值	说明
`--tensor-model-parallel-size`	int	1	张量并行大小
`--pipeline-model-parallel-size`	int	1	流水线并行大小
`--sequence-parallel`	flag	False	启用序列并行
`--context-parallel-size`	int	1	上下文并行大小
`--expert-model-parallel-size`	int	1	专家并行大小（MoE 模型）
`--expert-tensor-parallel-size`	int	1	专家张量并行大小

重计算

重计算部分使用的是 Megatron 原生参数，具体可参考 Megatron 文档。

参数	类型	默认值	说明
`--recompute-granularity`	str	-	重计算粒度：`full`、`selective`
`--recompute-method`	str	-	重计算方法：`uniform`、`block`
`--recompute-num-layers`	int	-	重计算层数

优化器配置

参数	类型	默认值	说明
`--lr`	float	1e-6	学习率
`--optimizer`	str	-	优化器类型（Megatron 原生参数）
`--lr-decay-style`	str	-	学习率衰减方式（Megatron 原生参数）
`--weight-decay`	float	-	权重衰减（Megatron 原生参数）
`--adam-beta1`	float	-	Adam beta1（Megatron 原生参数）
`--adam-beta2`	float	-	Adam beta2（Megatron 原生参数）
`--clip-grad`	float	1.0	梯度裁剪
`--seed`	int	1234	随机种子
`--optimizer-cpu-offload`	flag	-	启用 CPU offload 优化器状态（Megatron 原生参数）
`--overlap-cpu-optimizer-d2h-h2d`	flag	-	重叠 CPU 优化器 D2H/H2D 通信（Megatron 原生参数）
`--use-precision-aware-optimizer`	flag	-	使用精度感知优化器（Megatron 原生参数）
`--use-distributed-optimizer`	flag	-	ZeRO-1 风格分片优化器状态（Megatron 原生参数）
`--overlap-grad-reduce`	flag	-	反向计算与 grad reduce-scatter 重叠（Megatron 原生参数）
`--overlap-param-gather`	flag	-	reduce-scatter 与下一步 param all-gather 重叠，强制配合 `--overlap-grad-reduce`（Megatron 原生参数）
`--calculate-per-token-loss`	flag	False	按 Token 计算损失（Megatron 原生参数）

优化器 Flag 兼容性

场景	`--use-distributed-optimizer`	`--overlap-grad-reduce` / `--overlap-param-gather`
纯文本 Dense	✅	✅
Dense VL，CP = 1	✅	✅
Dense VL，CP > 1	✅	❌
MoE	✅	❌

算法配置

优势估计

参数	类型	默认值	可选值	说明
`--advantage-estimator`	str	grpo	`grpo`, `gspo`, `on_policy_distillation`, `sapo`	优势估计器。注意：OPD 现在独立于优势估计器，使用 `--opd-kl-coef > 0` 在任何估计器上启用 OPD
`--normalize-advantages`	flag	False	-	是否归一化优势
`--disable-grpo-std-normalization`	flag	-	-	禁用 GRPO 标准差归一化（来自 Dr.GRPO）
`--disable-rewards-normalization`	flag	-	-	禁用 reward 归一化
`--disable-compute-advantages-and-returns`	flag	-	-	禁用优势和回报计算。用于 SFT 或自定义损失函数

损失函数

参数	类型	默认值	可选值	说明
`--loss-type`	str	policy_loss	`policy_loss`, `custom_loss`	损失类型。`custom_loss` 时需设置 `--custom-loss-function-path`
`--custom-loss-function-path`	str	None	-	自定义损失函数路径
`--eps-clip`	float	0.2	-	PPO 裁剪范围（下界）
`--eps-clip-high`	float	None	-	PPO 裁剪上界。None 时等于 `--eps-clip`
`--eps-clip-c`	float	None	-	Dual-clip PPO 的值下界（论文）
`--value-clip`	float	0.2	-	值函数裁剪范围
`--entropy-coef`	float	0.0	-	熵损失系数

KL 散度相关

参数	类型	默认值	说明
`--kl-coef`	float	0.0	KL 惩罚系数，用于 reward shaping（在优势计算之前应用到 reward 信号）。不能与 `--kl-loss-coef` 同时非零
`--use-kl-loss`	flag	False	是否使用 GRPO 中的 KL 损失
`--kl-loss-coef`	float	0.0	KL 惩罚系数，添加到最终 PPO 损失中。不能与 `--kl-coef` 同时非零
`--kl-loss-type`	str	k1	`k1`, `k2`, `k3`, `low_var_kl`
`--use-unbiased-kl`	flag	False	启用无偏 KL 估计
`--ref-update-interval`	int	None	参考模型更新间隔（Rollout 步数）。None 表示不更新参考模型

SAPO 参数

参数	类型	默认值	说明
`--sapo-tau-pos`	float	1.0	SAPO 正优势温度
`--sapo-tau-neg`	float	1.05	SAPO 负优势温度

Critic 配置

参数	类型	默认值	说明
`--num-critic-only-steps`	int	0	仅训练 Critic 的步数
`--critic-train-only`	flag	False	仅训练 Critic 模型
`--critic-lr`	float	None	Critic 学习率。None 时等于 `--lr`
`--critic-lr-warmup-iters`	int	0	Critic 模型线性预热的迭代数

Off-Policy 修正

参数	类型	默认值	说明
`--use-rollout-logprobs`	flag	False	计算重要性采样比率时使用 Rollout 的 logprobs。未设置时使用 Actor 模型的 logprobs
`--use-tis`	flag	False	启用 TIS（Truncated Importance Sampling）off-policy 重要性采样
`--tis-clip`	float	2.0	重要性采样比率的裁剪阈值上界
`--tis-clip-low`	float	0	重要性采样比率的裁剪阈值下界
`--custom-tis-function-path`	str	None	自定义 TIS/RS 函数路径
`--custom-pg-loss-reducer-function-path`	str	None	自定义 pg_loss reducer 函数路径。设置后 pg_loss 使用自定义 reducer，其他指标仍使用默认的 sum_of_sample_mean

Routing Replay 与 OPSM

参数	类型	默认值	说明
`--use-routing-replay`	flag	False	启用 Routing Replay（论文）
`--use-rollout-routing-replay`	flag	False	启用 Rollout Routing Replay（论文）。启用后会自动开启 `--use-routing-replay`
`--use-opsm`	flag	False	启用 Off-Policy Sequence Masking (OPSM)
`--opsm-delta`	float	1e-4	OPSM 阈值

其他训练选项

参数	类型	默认值	说明
`--reset-optimizer-states`	flag	False	每次 Rollout 后是否重置优化器状态
`--use-rollout-entropy`	flag	False	计算 logprobs 时是否同时计算熵。用于特殊 loss mask
`--get-mismatch-metrics`	flag	False	是否计算 mismatch 指标。需要同时设置 `--custom-tis-function-path`

参数冻结与选择性训练

参数	类型	默认值	说明
`--only-train-params-name-list`	str (列表)	None	要训练的参数名正则表达式列表。其余参数被冻结。不能与 `--freeze-params-name-list` 同时使用。示例：`--only-train-params-name-list experts`
`--freeze-params-name-list`	str (列表)	None	要冻结的参数名正则表达式列表。其余参数保持可训练。示例：`--freeze-params-name-list embedding output_layer`

评估配置

参数	类型	默认值	说明
`--eval-interval`	int	None	评估间隔（Rollout 轮数）
`--eval-prompt-data`	str (列表)	None	评估数据集，格式：`dataset_name /path/to/data.jsonl`，可指定多对
`--eval-config`	str	None	OmegaConf YAML/JSON 评估配置文件路径。设置时覆盖 `--eval-prompt-data`
`--eval-function-path`	str	None	评估生成函数路径。None 时使用 `--rollout-function-path`
`--skip-eval-before-train`	flag	False	是否跳过训练前的评估
`--eval-input-key`	str	None	评估数据中输入字段的 key。None 时使用 `--input-key`
`--eval-label-key`	str	None	评估数据中标签字段的 key
`--eval-tool-key`	str	None	评估数据中 tool 字段的 key
`--n-samples-per-eval-prompt`	int	1	每个评估 Prompt 的采样数量
`--eval-temperature`	float	None	评估时采样温度
`--eval-top-p`	float	None	评估时 Top-p 参数
`--eval-top-k`	int	None	评估时 Top-k 参数
`--eval-max-response-len`	int	None	评估时最大响应长度
`--eval-max-prompt-len`	int	None	评估时最大 Prompt 长度
`--eval-min-new-tokens`	int	None	评估时最少新生成的 Token 数
`--eval-max-context-len`	int	None	评估时最大上下文长度。None 时等于 `--rollout-max-context-len`

Reward 配置

参数	类型	默认值	说明
`--rm-type`	str	None	内置 Reward 模型类型
`--custom-rm-path`	str	None	自定义 Reward 函数路径。函数签名：`def custom_rm(args, sample) -> float`
`--reward-key`	str	None	Reward 函数返回 dict 时提取 reward 值的 key
`--eval-reward-key`	str	None	评估时的 reward key。None 时等于 `--reward-key`
`--group-rm`	flag	False	是否对整个 group 做 Reward 计算
`--rm-url`	str	None	远程 Reward 模型服务 URL（用于 `--rm-type remote_rm`）
`--custom-reward-post-process-path`	str	None	自定义 reward 后处理函数路径。默认是 GRPO 的归一化处理
`--custom-convert-samples-to-train-data-path`	str	None	自定义样本到训练数据的转换函数。签名：`def convert_samples_to_train_data(args, samples) -> dict`

GenRM（生成式奖励模型）

参数	类型	默认值	说明
`--genrm-model-path`	str	None	GenRM 模型路径。设置后启用 GenRM
`--genrm-num-gpus`	int	1	GenRM 使用的总 GPU 数
`--genrm-num-gpus-per-engine`	int	1	每个 GenRM 引擎实例的 GPU 数
`--genrm-engine-config`	json	None	GenRM 引擎初始化参数。示例：`'{"dp_size": 1, "pp_size": 1, "max_total_tokens": 8192}'`
`--genrm-sampling-config`	json	None	GenRM 采样参数。可用 key：`temperature`（默认 0.1）、`top_p`（默认 1.0）、`top_k`（默认 -1）、`max_response_len`（默认 4096）

On-Policy Distillation（OPD）

参数	类型	默认值	可选值	说明
`--use-opd`	flag	False	-	启用 On-Policy Distillation。需同时指定 `--opd-type`
`--opd-type`	str	None	`sglang`, `megatron`	OPD 类型。`sglang`：从外部 SGLang 服务器获取教师模型的 logprobs；`megatron`：通过 `--opd-teacher-load` 加载教师模型
`--opd-kl-coef`	float	1.0	-	OPD KL 惩罚系数
`--opd-teacher-load`	str	None	-	OPD 教师模型检查点路径。`--opd-type=megatron` 时必须设置
`--opd-teacher-ckpt-step`	int	None	-	OPD 教师模型检查点步数

容错配置

参数	类型	默认值	说明
`--use-fault-tolerance`	flag	False	是否启用 Rollout 期间的容错功能
`--use-health-check`	flag	False	是否启用全局健康检查系统。Controller 的 HealthManager 监控所有服务，故障时触发自动重启
`--max-global-restart`	int	3	允许的最大全局重启次数。超过后训练终止。仅在 `--use-health-check` 启用时生效
`--rollout-health-check-interval`	float	30.0	Rollout 引擎健康检查间隔（秒）
`--rollout-health-check-timeout`	float	30.0	Rollout 引擎健康检查超时时间（秒）
`--rollout-health-check-first-wait`	float	0	开始健康检查前的初始等待时间（秒）。使用 deepgemm 时需要增大此值

弹性扩缩容配置

Autoscaler

参数	类型	默认值	说明
`--autoscaler-config`	str	None	Autoscaler YAML 配置文件路径。设置后启用自动扩缩容，未设置则禁用。示例：`--autoscaler-config relax/utils/autoscaler/autoscaler.yaml`

Autoscaler YAML 配置详情请参见 relax/utils/autoscaler/autoscaler.yaml。

Scale-Out 操作参数

参数	类型	默认值	可选值	说明
`--scale-out-timeout`	float	300.0	-	所有扩容操作（引擎启动、连接、健康检查、权重同步等）的超时时间（秒）
`--scale-out-partial-success-policy`	str	rollback_all	`rollback_all`, `keep_partial`	扩容部分成功时的策略。`rollback_all` 回滚所有引擎；`keep_partial` 保留成功的引擎

Scale-In 操作参数

参数	类型	默认值	说明
`--scale-in-drain-timeout`	float	30.0	等待进行中请求排空的超时时间（秒），超时后强制终止
`--scale-in-shutdown-timeout`	float	30.0	SGLang 引擎优雅关闭的超时时间（秒），超时后使用 `ray.kill` 强制终止

日志与监控配置

TensorBoard

参数	类型	默认值	说明
`--use-tensorboard`	flag	False	启用 TensorBoard 日志
`--tb-project-name`	str	None	TensorBoard 日志目录。默认使用环境变量 `TENSORBOARD_DIR`
`--tb-experiment-name`	str	None	TensorBoard 实验名称

ClearML

参数	类型	默认值	说明
`--use-clearml`	flag	False	启用 ClearML 日志

Metrics Service

参数	类型	默认值	说明
`--use-metrics-service`	flag	False	启用集中化指标收集和报告服务
`--timeline-dump-dir`	str	None	时间线 trace 事件导出目录（Chrome Trace 格式）。未设置则禁用时间线追踪

日志选项

参数	类型	默认值	说明
`--log-passrate`	flag	False	启用 pass@n 通过率日志
`--log-multi-turn`	flag	False	启用多轮 Rollout 信息日志
`--log-correct-samples`	flag	False	记录正确样本
`--log-reward-category`	str	None	记录 reward 分类统计。指定 reward dict 中的 key

通知

参数	类型	默认值	说明
`--notify-urls`	str	None	Apprise 通知 URL 列表（逗号分隔）

Router 配置

参数	类型	默认值	说明
`--use-slime-router`	flag	False	使用 SlimeRouter 进行基于文本的路由而非 SGLang 的基于 Token 的路由
`--slime-router-middleware-paths`	str (列表)	""	中间件路径列表
`--slime-router-timeout`	float	None	SlimeRouter HTTP 请求超时时间（秒）
`--slime-router-max-connections`	int	None	SlimeRouter HTTP 客户端最大连接数
`--slime-router-health-check-failure-threshold`	int	3	连续失败多少次后标记 worker 为不健康

其他训练参数

参数	类型	默认值	说明
`--train-env-vars`	json	{}	训练进程的额外环境变量
`--train-memory-margin-bytes`	int	1GB (1024³)	训练内存分配的预留空间
`--disable-weights-backuper`	flag	-	禁用权重备份以节省主机内存
`--custom-model-provider-path`	str	None	自定义模型 provider 函数路径
`--recompute-loss-function`	flag	False	是否重计算损失函数以节省显存
`--log-probs-chunk-size`	int	-1	分块计算 log probs 的大小。用于节省显存
`--allgather-cp`	flag	False	-
`--model-name`	str	None	模型名称，用于 Megatron 到 HF 权重转换。未设置时从 `AutoConfig.from_pretrained(hf_checkpoint)` 推断
`--only-load-weight`	flag	False	参考模型和 actor fwd 仅加载权重
`--rlsp-server-port`	int	8234	RLSP Server HTTP 端口
`--custom-config-path`	str	None	自定义参数 YAML 配置文件路径。文件中的 key-value 会覆盖已有参数

调试与性能分析参数

调试

参数	类型	默认值	说明
`--debug-rollout-only`	flag	False	仅运行 Rollout，不训练
`--debug-train-only`	flag	False	仅运行训练，不 Rollout
`--load-debug-rollout-data`	str	None	加载调试用 Rollout 数据。设置后自动启用 `--debug-train-only`
`--load-debug-rollout-data-subsample`	float	None	子采样部分调试 Rollout 数据以加速调试
`--save-debug-rollout-data`	str	None	保存 Rollout 数据，路径支持 `{rollout_id}` 占位符
`--save-debug-train-data`	str	None	保存训练数据，路径支持 `{rollout_id}` 占位符
`--dump-details`	str	None	导出所有训练细节用于事后分析
`--check-weight-update-equal`	flag	False	检查权重更新是否相等
`--enable-cuda-memory-check`	flag	False	在底层 NCCL 通信调用周围启用内存检查。在每次集合通信前记录可用 GPU 显存，通信失败时将内存信息附加到异常中

训练性能 Profiling

以下参数控制训练过程的 PyTorch Profiler 采集。Trace 文件默认保存到 traces/<tb_experiment_name>/train_trace/ 目录下。

参数	类型	默认值	说明
`--use-pytorch-profiler`	flag	False	启用 PyTorch 内置 profiler 记录训练步骤的 CUDA kernel、CPU op 和通信操作（来自 Megatron）
`--profile-step-start`	int	10	开始 profiling 的步数偏移（inclusive，来自 Megatron）。指从本次训练启动后的第 N 步开始采集，非绝对 rollout ID；断点续训时计数从 0 重新开始
`--profile-step-end`	int	12	停止 profiling 的步数偏移（inclusive，来自 Megatron）。含义同上。例如 start=10, end=12 会采集 step 10, 11, 12（共 3 步）
`--profile-target`	str (列表)	train_overall	性能分析目标：`train_overall`、`train_actor`、`train_log_probs`
`--profile-with-stack`	flag	False	在 profiler trace 中记录调用栈信息
`--profile-with-memory`	flag	False	在 profiler trace 中记录内存信息
`--profile-with-flops`	flag	False	在 profiler trace 中估算 FLOPs

GPU 内存 Profiling

以下参数控制 GPU 内存快照采集，用于诊断显存泄漏和 OOM 问题。Snapshot 文件可用 PyTorch Memory Viz 工具（torch.cuda.memory._viz）查看。

参数	类型	默认值	说明
`--record-memory-history`	flag	False	启用 CUDA 内存分配历史记录（来自 Megatron）。开启后会记录每次分配/释放的调用栈和张量信息，并在发生 OOM 时自动 dump snapshot
`--memory-snapshot-path`	str	snapshot.pickle	内存快照文件名（来自 Megatron）
`--memory-snapshot-dir`	str	None	内存快照保存目录。默认使用 `traces/<tb_experiment_name>/memory_snapshot`
`--memory-snapshot-num-steps`	int	None	在指定步数后主动 dump 内存快照（0-indexed，即设为 3 表示在第 2 步后 dump）
`--memory-recorder`	str	torch	内存记录器后端：`torch`（PyTorch 内置）、`memray`（需要 `pip install memray`）

网络

参数	类型	默认值	说明
`--http-proxy`	str	None	HTTP 代理地址
`--use-distributed-post`	flag	False	使用分布式 POST 请求

环境配置

Relax 使用 configs/env.yaml配置运行时环境变量：

yaml

env_vars:
  TOKENIZERS_PARALLELISM: 'true'
  NCCL_DEBUG: 'WARN'
  CUDA_DEVICE_MAX_CONNECTIONS: '1'
  GLOO_SOCKET_IFNAME: "eth0"
  TP_SOCKET_IFNAME: "eth0"

配置参考手册 ​

集群与资源配置 ​

Ray 启动参数 ​

TransferQueue 数据队列 ​

训练后端与模式 ​

检查点配置 ​

数据配置 ​

数据集 ​

多模态数据 ​

Rollout 配置 ​

采样参数 ​

过采样与动态过滤 ​

Partial Rollout ​

权重更新 ​

外部推理引擎 ​

SGLang 引擎参数 ​

自定义 Rollout 函数 ​

批处理配置 ​

并行配置 ​

重计算 ​

优化器配置 ​

优化器 Flag 兼容性 ​

算法配置 ​

优势估计 ​

损失函数 ​

KL 散度相关 ​

SAPO 参数 ​

Critic 配置 ​

Off-Policy 修正 ​

Routing Replay 与 OPSM ​

其他训练选项 ​

参数冻结与选择性训练 ​

评估配置 ​

Reward 配置 ​

GenRM（生成式奖励模型） ​

On-Policy Distillation（OPD） ​

容错配置 ​

弹性扩缩容配置 ​

Autoscaler ​

Scale-Out 操作参数 ​

Scale-In 操作参数 ​

日志与监控配置 ​

TensorBoard ​

ClearML ​

Metrics Service ​

日志选项 ​

通知 ​

Router 配置 ​

其他训练参数 ​

调试与性能分析参数 ​

调试 ​

训练性能 Profiling ​

GPU 内存 Profiling ​

网络 ​

环境配置 ​