单选题 在 DeepSpeed 配置中,`"zero_optimization"` 用于设置:

A、 模型并行
B、 数据并行
C、 ZeRO 优化
D、 流水线并行
下载APP答题
由4l***og提供 分享 举报 纠错

相关试题

单选题 以下哪种方法可以防止梯度爆炸?

A、增加学习率
B、梯度裁剪
C、使用更大的 batch
D、减少层数

单选题 以下哪种数据质量评估方法最可靠?

A、计算重复率
B、人工抽样评估
C、困惑度测试
D、自动分类

单选题 在大模型训练中,使用“余弦退火”学习率调度的主要目的是:

A、保持恒定学习率
B、先升后降
C、平滑降低学习率
D、加速初期训练

单选题 以下哪种方法可以加速注意力计算?

A、使用 Flash Attention
B、增大序列长度
C、关闭混合精度
D、使用更多头

单选题 以下关于“模型并行”和“数据并行”的说法正确的是:

A、模型并行切分模型,数据并行切分 batch
B、两者不可结合
C、数据并行效率更低
D、模型并行更简单

单选题 在训练中,`torch.compile()` 需要 PyTorch 版本至少为:

A、1.12
B、2.0
C、1.8
D、2.1

单选题 以下哪个不是数据预处理的步骤?

A、分词
B、去重
C、模型训练
D、格式转换

单选题 以下哪种数据质量评估方法最直接?

A、计算重复率
B、人工抽样评估
C、困惑度测试
D、自动分类