单选题 以下哪种方法可以防止梯度爆炸?
A、增加学习率
B、梯度裁剪
C、使用更大的 batch
D、减少层数
单选题 以下哪种数据质量评估方法最可靠?
A、计算重复率
B、人工抽样评估
C、困惑度测试
D、自动分类
单选题 在大模型训练中,使用“余弦退火”学习率调度的主要目的是:
A、保持恒定学习率
B、先升后降
C、平滑降低学习率
D、加速初期训练
单选题 以下哪种方法可以加速注意力计算?
A、使用 Flash Attention
B、增大序列长度
C、关闭混合精度
D、使用更多头
单选题 以下关于“模型并行”和“数据并行”的说法正确的是:
A、模型并行切分模型,数据并行切分 batch
B、两者不可结合
C、数据并行效率更低
D、模型并行更简单
单选题 在训练中,`torch.compile()` 需要 PyTorch 版本至少为:
单选题 以下哪种数据质量评估方法最直接?
A、计算重复率
B、人工抽样评估
C、困惑度测试
D、自动分类