单选题下列哪种方法属于通信频次优化算法？（）

A、 LocalSGD

B、 EF-signSGD

C、 DGC

D、 GMC

由4l***t3提供分享举报纠错

相关试题

单选题 LoRA 的核心思想是在需要微调的权重旁边增加什么结构，冻结主干进行学习？（）

A、全连接分支

B、低秩分支

C、卷积分支

D、注意力分支

单选题全微调（Full Fine-Tuning）的前向传播公式是？（）

A、$$h = X W + X A B$$

B、$$h = X W$$

C、$$h = X A B$$

D、$$h = X (W + A B)$$

单选题 QLoRA 采用的量化方式不包括以下哪项？（）

A、4bit NormalFloat 量化（NF4）

B、双量化（Double Quantization）

C、8bit 整数量化

D、将 4bit 量化参数恢复为 16bit 参与计算

单选题根据英伟达 CEO 黄仁勋在 GTC 2020 的表述，自 2017 年底发布 Tesla V100 后，训练最大模型的算力需求增长了多少倍？（）

A、1000 倍

B、2000 倍

C、3000 倍

D、4000 倍

单选题对于 GPT-3 175B 模型，全微调的训练速度是 32.5 tokens/s per V100 GPU，LoRA 的训练速度提升约多少？（）

A、10%

B、30%

C、50%

D、100%

单选题训练一次 GPT-3 所需的 GPU 年数约为多少？（）

A、355 个

B、35 个

C、55 个

D、3550 个

单选题分布式优化中，科研人员常提出“100 张卡没法训练 x B 大小的模型，显存溢出”的问题，其本质是大模型训练面临的哪类挑战？（）

A、数据量不足

B、算力（存储/计算/通信）不足

C、模型架构不合理

D、优化算法失效

单选题机器学习的核心优化问题中，给定训练样本集$$\{(x*i,y_i)\}*{i=1}^n$$，目标函数通常表示为？（）

A、$$min*w f(w) = \sum*{i=1}^n f*i(w)$$

B、$$min_w f(w) = \frac{1}{n} \sum*{i=1}^n f*i(w)$$

C、$$max_w f(w) = \frac{1}{n} \sum*{i=1}^n f*i(w)$$

D、$$max_w f(w) = \sum*{i=1}^n f*i(w)$$