多选题 数据表本身会出现不够干净的现象,由于人工录入,接口接入等多方面因素,会导致有重复数据。要去除这些重复数据我们可以使用 (3分)

A、 过滤
B、 差集
C、 自定义SQL算子使用Distinct
D、 去重
下载APP答题
由4l***yf提供 分享 举报 纠错

相关试题

单选题 数据建模过程常经常用来比喻成做菜的过程,设定目标,准备好食材按一定流程进行加工处理,最终生成一道菜。这里提到的食材,比喻成建模的哪个要素? (1.5分)

A、 数据
B、 流程
C、 建模平台
D、 算法/算子

单选题 输出算子可以将相应模型结果输出,以下关于输出算子描述不正确的是 (1.5分)

A、 可以同步在模型结果数据
B、 模型结果数据输出的结果数据量是跟着原模型输出的数据量更改的
C、 可以输出到外部数据库中
D、 输出的路径只能是内置的,不能新增

单选题 “2022/1/31”可以用什么算子转换成“2022-1-31”格式 (1.5分)

A、 缺失值处理
B、 值映射
C、 字段值替换
D、 类型转换

单选题 数据透视表是汇总、分析、浏览和呈现汇总数据的方法。若要向数据透视表中添加字段,请在“数据透视表字段”窗格中选中字段名称() (1.5分)

A、 工作表
B、 公式
C、 单元格
D、 复选框

单选题 第一次启动Hadoop需要初始化 (初始化后不要多次初始化,多次初始化需要删除),初始化成功后,可以在某个目录下(该路径在hdfs-site.xml文件中进行了相应配置,并新建了该文件夹)新增文件。Hadoop启动的命令是? (1.5分)

A、 /sbin/stop-dfs.sh
B、 /bin/start-dfs.sh
C、 /sbin/start-dfs.sh
D、 /etc/start-dfs.sh

单选题 在天算建模平台中,哪个模块可以为各类已经发布的模型、算子提供展示平台,同时支持模型评价、经验交流、模型共享、技能培训等,满足对模型的分发、收集、整合、应用、管理等功能。 (1.5分)

A、 模型广场
B、 模型管理
C、 数据集市
D、 应用构建

单选题 可以用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个正确、独立且无歧义的特定概念语义的信息单元,可以理解为数据的基本单元。请问该基本单元是指? (1.5分)

A、 元数据
B、 字段
C、 数据元
D、 数值

单选题 如需通过“吸毒人员信息表”和“住宿信息表”关联出吸毒人员的住宿信息,应该用什么算子关联 (1.5分)

A、 并集
B、 聚合
C、 差集
D、 交集