单选题 LoRA 的核心思想是在需要微调的权重旁边增加什么结构,冻结主干进行学习?( )
A、全连接分支
B、低秩分支
C、卷积分支
D、注意力分支
单选题 全微调(Full Fine-Tuning)的前向传播公式是?( )
A、$$h = X W + X A B$$
B、$$h = X W$$
C、$$h = X A B$$
D、$$h = X (W + A B)$$
单选题 QLoRA 采用的量化方式不包括以下哪项?( )
A、4bit NormalFloat 量化(NF4)
B、双量化(Double Quantization)
C、8bit 整数量化
D、将 4bit 量化参数恢复为 16bit 参与计算
单选题 根据英伟达 CEO 黄仁勋在 GTC 2020 的表述,自 2017 年底发布 Tesla V100 后,训练最大模型的算力需求增长了多少倍?( )
A、1000 倍
B、2000 倍
C、3000 倍
D、4000 倍
单选题 对于 GPT-3 175B 模型,全微调的训练速度是 32.5 tokens/s per V100 GPU,LoRA 的训练速度提升约多少?( )
单选题 训练一次 GPT-3 所需的 GPU 年数约为多少?( )
A、355 个
B、35 个
C、55 个
D、3550 个
单选题 分布式优化中,科研人员常提出“100 张卡没法训练 x B 大小的模型,显存溢出”的问题,其本质是大模型训练面临的哪类挑战?( )
A、数据量不足
B、算力(存储/计算/通信)不足
C、模型架构不合理
D、优化算法失效
单选题 机器学习的核心优化问题中,给定训练样本集$$\{(x*i,y_i)\}*{i=1}^n$$,目标函数通常表示为?( )
A、$$min*w f(w) = \sum*{i=1}^n f*i(w)$$
B、$$min_w f(w) = \frac{1}{n} \sum*{i=1}^n f*i(w)$$
C、$$max_w f(w) = \frac{1}{n} \sum*{i=1}^n f*i(w)$$
D、$$max_w f(w) = \sum*{i=1}^n f*i(w)$$