Professional Data Engineer-中文New_在线真题试卷与模拟练习_Professional Data Engineer-中文New_考试宝

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

收藏

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

您正在为 Google Cloud 上的数据管道设计超大文本文件的存储。您希望支持 ANSI SQL 查询。您还希望使用 Google 推荐的做法从输入位置支持压缩和并行加载。你该怎么办？

你正在谷歌云上开发一个应用程序，它会自动为用户的博客文章生成主题标签。您面临快速添加此功能的竞争压力，并且您没有额外的开发人员资源。您团队中没有人有机器学习方面的经验。你该怎么办？

您正在为 20 TB 的文本文件设计存储，作为在 Google Cloud 上部署数据管道的一部分。您的输入数据为 CSV 格式。您希望将使用多个引擎查询 Cloud Storage 中数据的多个用户的聚合值查询成本降至最低。您应该使用哪种存储服务和模式设计？

您正在为两个关系表设计存储，这两个关系表是 Google Cloud 上 10 TB 数据库的一部分。您希望支持横向扩展的事务。
您还希望针对非键列的范围查询优化数据。你该怎么办？

您的金融服务公司正在转向云技术，并希望在云中存储 50 TB 的金融时间序列数据。该数据经常更新，新数据将一直流入。您的公司还希望将其现有的 Apache Hadoop 作业迁移到云中以深入了解这些数据。
他们应该使用哪种产品来存储数据？

一个组织维护着一个 Google BigQuery 数据集，其中包含带有用户级数据的表格。他们想将这些数据的汇总公开给其他谷歌
云项目，同时仍然控制对用户级数据的访问。此外，他们需要将总体存储成本降至最低，并确保将其他项目的分析成本分配给这些项目。他们应该怎么办？

您所在行业的政府法规要求您必须维护对某些类型数据的访问的可审计记录。假设所有过期日志都将被正确归档，那么您应该在哪里存储受该命令约束的数据？

你的神经网络模型需要几天时间来训练。你想提高训练速度。你能做什么？

你负责编写公司的 ETL 管道以在 Apache Hadoop 集群上运行。该管道将需要一些检查点和拆分管道。您应该使用哪种方法来编写管道？

贵公司使用 GCP 维护混合部署，其中对匿名客户数据执行分析。数据导入云端
通过并行上传到在 GCP 上运行的数据传输服务器，从您的数据中心进行存储。管理层通知您每日转账时间过长，并要求您解决问题。您想要最大化传输速度。你应该采取什么行动？

MJTelco 案例研究 -
公司简介 -
MJTelco 是一家初创公司，计划在全球快速增长、服务欠缺的市场建立网络。公司拥有创新光通信硬件专利。基于这些专利，他们可以用廉价的硬件创建许多可靠、高速的主干链路。
公司背景 -
MJTelco 由经验丰富的电信高管创立，使用最初开发的技术来克服太空中的通信挑战。作为其运营的基础，他们需要创建一个分布式数据基础架构来驱动实时分析并结合机器学习来持续优化其拓扑结构。由于他们的硬件价格低廉，他们计划过度部署网络，使他们能够考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球，在他们的系统中创建数据消费者和提供者之间的多对多关系。经过仔细考虑，他们决定公共云是支持他们需求的完美环境。
解决方案概念 -
MJTelco 正在其实验室中运行一个成功的概念验证 (PoC) 项目。他们有两个主要需求：
✑ 扩展和强化他们的 PoC，以支持当他们安装超过 50,000 台时生成的更多数据流。
✑ 改进他们的机器学习周期以验证和改进他们用于控制拓扑定义的动态模型。
MJTelco 还将使用三个独立的操作环境“开发/测试、暂存和生产”来满足运行实验、部署新功能和服务生产客户的需要。
业务需求 -
✑ 以最小的成本扩大其生产环境，在不可预测的分布式电信用户社区中随时随地根据需要实例化资源。
✑ 确保其专有数据的安全，以保护其领先的机器学习和分析。
✑ 提供可靠和及时的数据访问，以便分布式研究人员进行分析
✑ 在不影响客户的情况下维护支持机器学习模型快速迭代的隔离环境。
技术要求 -
确保遥测数据的安全高效传输和存储
快速扩展实例以支持 10,000 到 100,000 个数据提供者，每个数据提供者都有多个流。
允许根据数据表进行分析和展示，跟踪长达 2 年的数据，每天存储大约 1 亿条记录
支持监控基础设施的快速迭代，重点关注遥测流和生产学习周期中数据管道问题的意识。
首席执行官声明 -
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们廉价的硬件被组织成高度可靠的，这给了我们成本优势。我们需要快速稳定我们的大型分布式数据管道，以满足我们的可靠性和容量承诺。
首席技术官声明 -
我们的公共云服务必须按照宣传的方式运行。我们需要可扩展并确保数据安全的资源。我们还需要数据科学家可以仔细研究并快速调整我们的模型的环境。因为我们依靠自动化来处理我们的数据，所以我们还需要我们的开发和测试环境在我们迭代时正常工作。
首席财务官声明 -
该项目太大，我们无法维护数据和分析所需的硬件和软件。此外，我们无力聘请运营团队来监控如此多的数据源，因此我们将依赖自动化和基础设施。Google Cloud 的机器学习将使我们的定量研究人员能够处理我们的高价值问题，而不是我们的数据管道问题。
MJTelco 正在构建自定义界面来共享数据。他们有这些要求：
1 他们需要对 PB 级数据集进行聚合。
2 他们需要以非常快的响应时间（毫秒）扫描特定时间范围的行。
您应该推荐哪种 Google Cloud Platform 产品组合？

MJTelco 案例研究 -
公司简介 -
MJTelco 是一家初创公司，计划在全球快速增长、服务欠缺的市场建立网络。公司拥有创新光通信硬件专利。基于这些专利，他们可以用廉价的硬件创建许多可靠、高速的主干链路。
公司背景 -
MJTelco 由经验丰富的电信高管创立，使用最初开发的技术来克服太空中的通信挑战。作为其运营的基础，他们需要创建一个分布式数据基础架构来驱动实时分析并结合机器学习来持续优化其拓扑结构。由于他们的硬件价格低廉，他们计划过度部署网络，使他们能够考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球，在他们的系统中创建数据消费者和提供者之间的多对多关系。经过仔细考虑，他们决定公共云是支持他们需求的完美环境。
解决方案概念 -
MJTelco 正在其实验室中运行一个成功的概念验证 (PoC) 项目。他们有两个主要需求：
✑ 扩展和强化他们的 PoC，以支持当他们安装超过 50,000 台时生成的更多数据流。
完善他们的机器学习周期，以验证和改进他们用于控制拓扑定义的动态模型。
MJTelco 还将使用三个独立的操作环境“开发/测试、暂存和生产”来满足运行实验、部署新功能和服务生产客户的需要。
业务需求 -
✑ 以最小的成本扩大其生产环境，在不可预测的分布式电信用户社区中随时随地根据需要实例化资源。
✑ 确保其专有数据的安全，以保护其领先的机器学习和分析。
✑ 提供可靠和及时的数据访问，以便分布式研究人员进行分析
✑ 在不影响客户的情况下维护支持机器学习模型快速迭代的隔离环境。
技术要求 -
确保遥测数据的安全高效传输和存储
快速扩展实例以支持 10,000 到 100,000 个数据提供者，每个数据提供者都有多个流。
允许根据数据表进行分析和展示，跟踪长达 2 年的数据，每天存储大约 1 亿条记录
支持监控基础设施的快速迭代，重点关注遥测流和生产学习周期中数据管道问题的意识。
首席执行官声明 -
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们廉价的硬件被组织成高度可靠的，这给了我们成本优势。我们需要快速稳定我们的大型分布式数据管道，以满足我们的可靠性和容量承诺。
首席技术官声明 -
我们的公共云服务必须按照宣传的方式运行。我们需要可扩展并确保数据安全的资源。我们还需要数据科学家可以仔细研究并快速调整我们的模型的环境。因为我们依靠自动化来处理我们的数据，所以我们还需要我们的开发和测试环境在我们迭代时正常工作。
首席财务官声明 -
该项目太大，我们无法维护数据和分析所需的硬件和软件。此外，我们无力聘请运营团队来监控如此多的数据源，因此我们将依赖自动化和基础设施。Google Cloud 的机器学习将使我们的定量研究人员能够处理我们的高价值问题，而不是我们的数据管道问题。
您需要为具有以下要求的运营团队构建可视化：
✑ 遥测必须包括最近 6 周内所有 50,000 个安装的数据（每分钟采样一次）
✑ 报告与实时数据的延迟不得超过 3 小时。
✑ 可操作的报告应该只显示次优链接。
✑ 大多数次优链接应该排在最前面。
次优链接可以按区域地理分组和过滤。
✑ 加载报告的用户响应时间必须<5 秒。
您创建一个数据源来存储过去 6 周的数据，并创建可视化效果以允许查看者查看多个日期范围、不同的地理区域和独特的安装类型。您始终显示最新数据，而无需对可视化进行任何更改。您希望避免每月创建和更新新的可视化效果。你该怎么办？

MJTelco 案例研究 -
公司简介 -
MJTelco 是一家初创公司，计划在全球快速增长、服务欠缺的市场建立网络。公司拥有创新光通信硬件专利。基于这些专利，他们可以用廉价的硬件创建许多可靠、高速的主干链路。
公司背景 -
MJTelco 由经验丰富的电信高管创立，使用最初开发的技术来克服太空中的通信挑战。作为其运营的基础，他们需要创建一个分布式数据基础架构来驱动实时分析并结合机器学习来持续优化其拓扑结构。由于他们的硬件价格低廉，他们计划过度部署网络，使他们能够考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球，在他们的系统中创建数据消费者和提供者之间的多对多关系。经过仔细考虑，他们决定公共云是支持他们需求的完美环境。
解决方案概念 -
MJTelco 正在其实验室中运行一个成功的概念验证 (PoC) 项目。他们有两个主要需求：
✑ 扩展和强化他们的 PoC，以支持当他们安装超过 50,000 台时生成的更多数据流。
✑ 改进他们的机器学习周期以验证和改进他们用于控制拓扑定义的动态模型。
MJTelco 还将使用三个独立的操作环境“开发/测试、暂存和生产”来满足运行实验、部署新功能和服务生产客户的需要。
业务需求 -
✑ 以最小的成本扩大其生产环境，在不可预测的分布式电信用户社区中随时随地根据需要实例化资源。
✑ 确保其专有数据的安全，以保护其领先的机器学习和分析。
✑ 提供可靠和及时的数据访问，以便分布式研究人员进行分析
✑ 在不影响客户的情况下维护支持机器学习模型快速迭代的隔离环境。
技术要求 -
确保遥测数据的安全高效传输和存储
快速扩展实例以支持 10,000 到 100,000 个数据提供者，每个数据提供者都有多个流。
允许根据数据表进行分析和展示，跟踪长达 2 年的数据，每天存储大约 1 亿条记录
支持监控基础设施的快速迭代，重点关注遥测流和生产学习周期中数据管道问题的意识。
首席执行官声明 -
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们廉价的硬件被组织成高度可靠的，这给了我们成本优势。我们需要快速稳定我们的大型分布式数据管道，以满足我们的可靠性和容量承诺。
首席技术官声明 -
我们的公共云服务必须按照宣传的方式运行。我们需要可扩展并确保数据安全的资源。我们还需要数据科学家可以仔细研究并快速调整我们的模型的环境。因为我们依靠自动化来处理我们的数据，所以我们还需要我们的开发和测试环境在我们迭代时正常工作。
首席财务官声明 -
该项目太大，我们无法维护数据和分析所需的硬件和软件。此外，我们无力聘请运营团队来监控如此多的数据源，因此我们将依赖自动化和基础设施。Google Cloud 的机器学习将使我们的定量研究人员能够处理我们的高价值问题，而不是我们的数据管道问题。
鉴于 MJTelco 有兴趣每天摄取的记录流，他们担心 Google BigQuery 的成本增加。MJTelco 要求您提供设计方案。他们需要一个名为 tracking_table 的大型数据表。此外，他们希望在对每天的事件执行细粒度分析的同时最大程度地降低日常查询的成本。他们还想使用流式摄取。你该怎么办？

Flowlogistic 案例研究-
公司简介 -
Flowlogistic 是一家领先的物流和供应链供应商。他们帮助世界各地的企业管理资源并将其运输到最终目的地。该公司发展迅速，将其产品扩展到包括铁路、卡车、飞机和海运。
公司背景 -
公司最初是一家区域货运公司，后来扩展到其他物流市场。因为他们没有更新他们的基础设施，管理和跟踪订单和发货已经成为瓶颈。为了改善运营，Flowlogistic 开发了专有技术，用于在包裹级别实时跟踪货运。但是，他们无法部署它，因为他们基于 Apache Kafka 的技术堆栈无法支持处理量。此外，Flowlogistic 希望进一步分析他们的订单和发货以确定如何最好地部署他们的资源。
解决方案概念 -
Flowlogistic 希望使用云实现两个概念：
✑ 在指示货物位置的实时库存跟踪系统中使用他们的专有技术
✑ 对所有包含结构化和非结构化数据的订单和运输日志进行分析，以确定如何最好地部署资源，在哪些市场扩展信息。他们还希望使用预测分析来更早地了解发货何时会延迟。
现有技术环境-
Flowlogistic 架构位于单个数据中心：
✑ 数据库
- 2 个集群中的 8 台物理服务器
- SQL Server `" 用户数据、库存、静态数据
- 3台物理服务器
- Cassandra `" 元数据，跟踪消息
10 个 Kafka 服务器 `" 跟踪消息聚合和批量插入
✑ 应用服务器``客户前端，订单/海关中间件
- 20 台物理服务器上的 60 台虚拟机
- Tomcat `"Java 服务
- Nginx `" 静态内容
- 批处理服务器
✑ 存储设备
- 用于虚拟机 (VM) 主机的 iSCSI
- 光纤通道存储区域网络 (FC SAN)``SQL 服务器存储
网络附加存储 (NAS) 图像存储、日志、备份
✑ 10 个 Apache Hadoop /Spark 服务器
- 核心数据湖
- 数据分析工作负载
✑ 20 台杂项服务器
- Jenkins，监控，堡垒主机，
业务需求 -
✑ 通过规模化生产构建可靠且可重现的环境。
✑ 在集中式数据湖中聚合数据以供分析
✑ 使用历史数据对未来的出货量进行预测分析
✑ 使用专有技术准确跟踪全球的每批货物
✑ 通过快速提供新资源提高业务敏捷性和创新速度
✑ 分析和优化云性能架构
✑ 如果满足所有其他要求，则完全迁移到云端
技术要求 -
✑ 处理流数据和批数据
✑ 迁移现有的 Hadoop 工作负载
✑ 确保架构具有可扩展性和弹性，以满足公司不断变化的需求。
✑ 尽可能使用托管服务
✑ 加密数据飞行和休息
在生产数据中心和云环境之间连接 VPN
搜索引擎优化声明 -
我们发展如此之快，以至于我们无法升级我们的基础设施，这确实阻碍了进一步的增长和效率。我们在全球范围内高效地运送货物，但在四处移动数据方面效率低下。
我们需要组织我们的信息，以便我们可以更轻松地了解我们的客户在哪里以及他们正在运送什么。
首席技术官声明 -
IT 从来都不是我们的优先事项，因此随着数据的增长，我们在技术上的投资不够。我有一个优秀的员工来管理 IT，但他们忙于管理我们的基础架构，以至于我无法让他们做真正重要的事情，例如组织我们的数据、构建分析以及弄清楚如何实施 CFO 的跟踪技术。
首席财务官声明 -
我们的部分竞争优势是我们会因延迟发货和交货而受到惩罚。随时了解出货量与我们的底线和盈利能力直接相关。此外，我不想投入资金来构建服务器环境。
Flowlogistic 的管理层已确定当前的 Apache Kafka 服务器无法处理其实时库存跟踪系统的数据量。
您需要在 Google Cloud Platform (GCP) 上构建一个新系统，该系统将为专有跟踪软件提供数据。系统必须能够从各种全球来源获取数据，实时处理和查询，并可靠地存储数据。您应该选择哪种 GCP 产品组合？

将ETL作业迁移到BigQuery上运行后，您需要验证迁移作业的输出是否与原始作业的输出相同。您已经加载了一个包含原始作业输出的表，并希望将内容与迁移作业的输出进行比较以表明它们是相同的。这些表不包含使您能够将它们连接在一起进行比较的主键列。
你该怎么办？

您是一家大型企业的 BI 主管，拥有多个业务部门，每个部门都有不同的优先级和预算。您使用按需定价
每个项目具有 2K 个并发按需插槽配额的 BigQuery。您组织中的用户有时无法获得执行查询的时间段，您需要更正此问题。您希望避免向您的帐户引入新项目。
你该怎么办？

你有一个本地 Apache Kafka 集群，其主题包含 Web 应用程序日志。您需要将数据复制到 Google Cloud，以便在 BigQuery 和 Cloud Storage 中进行分析。首选的复制方法是镜像以避免部署 Kafka Connect 插件。
你该怎么办？

您已将 Hadoop 作业从本地集群迁移到数据处理和 GCS。您的 Spark 作业是一个复杂的分析工作负载，由许多混洗操作组成，初始数据是 parquet 文件（每个文件平均大小为 200-400 MB）。迁移到 Dataproc 后，您发现性能有所下降，因此您希望针对它进行优化。您需要记住，您的组织对成本非常敏感，因此您希望针对此工作负载继续使用 Dataproc on preemptibles（仅使用 2 个非抢占工作器）。
你该怎么办？

你的团队负责在你的公司开发和维护 ETL。由于输入数据中的某些错误，您的一项数据流作业失败了，您需要提高管道的可靠性（包括能够重新处理所有失败的数据）。
你该怎么办？

你正在训练一个模型，根据可用的房地产数据集来预测房价。您的计划是训练一个完全连接的神经网络，并且您发现数据集包含属性的纬度和经度。房地产专业人士告诉您，房产的位置对价格影响很大，因此您想设计一个包含这种物理依赖性的功能。
你该怎么办？