单选题 在冲突消解中,根据规则执行后得出的结论离最终目标的远近来决定执行顺序,属于哪种策略?

A、 专一性排序
B、 就近排序
C、 按顺序排排坐
D、 随机选择
下载APP答题
由4l***ir提供 分享 举报 纠错

相关试题

单选题 关于语言模型,“天气预报:大风降温,我明天要____”例子说明什么?

A、语言模型根据概率预测最可能出现的词
B、语言模型需要记住所有句子
C、语言模型只能做填空
D、语言模型理解天气变化的原因

单选题 在大语言模型的训练过程中,预训练之后的第一步(SFT)是做什么?

A、直接使用模型生成答案
B、用人工标注的问题-答案对进行有监督学习,教会模型如何回答问题
C、训练一个评估模型来判断答案好坏
D、强化学习优化模型

单选题 幻觉是一把双刃剑,其正面作用是什么?

A、提高答案准确性
B、在艺术创作中可能带来灵感和创造力
C、减少计算成本
D、增强逻辑推理

单选题 “幻觉问题”指的是什么?

A、模型生成的内容完全错误且毫无逻辑
B、模型生成貌似合理但实际错误的内容(一本正经胡说八道)
C、模型拒绝回答问题
D、模型输出乱码

单选题 “鹦鹉学舌”和“熟读唐诗三百首”来比喻预训练,其核心意思是?

A、大语言模型只能机械重复
B、通过大量文本学习,模型能学会语言规律和知识
C、模型不需要学习就能回答问题
D、模型会背诵所有训练数据

单选题 用谓词逻辑表示“Tom的所有同学都喜欢他”,下列公式正确的是?

A、$$\forall x$$ (classmate(x, Tom) → like(x, Tom))
B、$$\exists x$$ (classmate(x, Tom) ∧ like(x, Tom))
C、$$\forall x$$ (classmate(x, Tom) ∧ like(x, Tom))
D、$$\forall x$$ (like(x, Tom) → classmate(x, Tom))

单选题 第三步(PPO/GRPO)中,如何优化模型使其与人类偏好对齐?

A、继续用人工标注答案
B、模型自己生成答案,由评估模型评价,根据评价结果改进模型
C、直接复制人类专家的答案
D、随机生成答案并保留好的

单选题 第二步(奖励建模)中,标注人员需要做什么工作?

A、写出每个问题的标准答案
B、对模型生成的多个答案进行好坏排序
C、直接评分每个答案
D、判断答案是否合法