单选题在冲突消解中，根据规则执行后得出的结论离最终目标的远近来决定执行顺序，属于哪种策略？

A、专一性排序

B、就近排序

C、按顺序排排坐

D、随机选择

由4l***ir提供分享举报纠错

相关试题

单选题关于语言模型，“天气预报：大风降温，我明天要____”例子说明什么？

A、语言模型根据概率预测最可能出现的词

B、语言模型需要记住所有句子

C、语言模型只能做填空

D、语言模型理解天气变化的原因

单选题在大语言模型的训练过程中，预训练之后的第一步（SFT）是做什么？

A、直接使用模型生成答案

B、用人工标注的问题-答案对进行有监督学习,教会模型如何回答问题

C、训练一个评估模型来判断答案好坏

D、强化学习优化模型

单选题幻觉是一把双刃剑，其正面作用是什么？

A、提高答案准确性

B、在艺术创作中可能带来灵感和创造力

C、减少计算成本

D、增强逻辑推理

单选题 “幻觉问题”指的是什么？

A、模型生成的内容完全错误且毫无逻辑

B、模型生成貌似合理但实际错误的内容(一本正经胡说八道)

C、模型拒绝回答问题

D、模型输出乱码

单选题 “鹦鹉学舌”和“熟读唐诗三百首”来比喻预训练，其核心意思是？

A、大语言模型只能机械重复

B、通过大量文本学习,模型能学会语言规律和知识

C、模型不需要学习就能回答问题

D、模型会背诵所有训练数据

单选题用谓词逻辑表示“Tom的所有同学都喜欢他”，下列公式正确的是？

A、$$\forall x$$ (classmate(x, Tom) → like(x, Tom))

B、$$\exists x$$ (classmate(x, Tom) ∧ like(x, Tom))

C、$$\forall x$$ (classmate(x, Tom) ∧ like(x, Tom))

D、$$\forall x$$ (like(x, Tom) → classmate(x, Tom))

单选题第三步（PPO/GRPO）中，如何优化模型使其与人类偏好对齐？

A、继续用人工标注答案

B、模型自己生成答案,由评估模型评价,根据评价结果改进模型

C、直接复制人类专家的答案

D、随机生成答案并保留好的

单选题第二步（奖励建模）中，标注人员需要做什么工作？

A、写出每个问题的标准答案

B、对模型生成的多个答案进行好坏排序

C、直接评分每个答案

D、判断答案是否合法