专业人士提供的专业数据工程师试卷--第一次尝试保证成功 [Q136-Q154]

给本帖评分

专业人士提供的专业数据工程师试卷 - 保证一次成功

100% 保证下载专业数据工程师考试试卷 PDF Q&A

谷歌专业数据工程师认证考试旨在验证从事数据工程领域工作的个人的技能和知识。Google Certified Professional Data Engineer Exam 认证面向那些拥有使用 Google Cloud Platform 服务设计、构建和维护数据处理系统专业知识的专业人士。专业数据工程师考试评估考生设计、实施和管理数据处理系统的能力,以及对数据分析和机器学习概念的理解。

 

新问题 136
贵化工公司需要手动检查客户订单的文档。您在 Pub/Sub 中使用了拉动订阅,以便销售代理从订单中获取详细信息。您必须确保不同的销售代理不会重复处理订单,也不会增加工作流程的复杂性。
你该怎么办?

 
 
 
 

新问题 137
贵公司正在将来自工厂车间的实时传感器数据流导入 Bigtable,他们发现性能极差。应该如何重新设计行键,以提高 Bigtable 在填充实时仪表盘的查询中的性能?

 
 
 
 

新问题 138
您正在设计一个 Apache Beam 管道,利用 BigQuery 的静态参考数据来丰富来自 Cloud Pub/Sub 的数据。参考数据非常小,足以容纳在单个 Worker 的内存中。管道应将丰富后的结果写入 BigQuery 进行分析。该管道应使用哪种作业类型和转换?

 
 
 
 

新问题 139
在 Cloud Bigtable 中存储数据时,建议最少存储多少数据?

 
 
 
 

新问题 140
您通过 Kafka 集群向 Redis 集群插入流式数据。两个群集都在
计算引擎实例。您需要使用可根据需要创建、旋转和销毁的加密密钥对静态数据进行加密。您应该怎么做?

 
 
 
 

新问题 141
您在 BigQuery 中拥有用于为公司生成报告的数据。例如,报告错误包括不同的电话格式和不同的国家代码标识符。这是一个经常出现的问题,因此您需要创建一个定期作业来规范数据。

 
 
 
 

新问题 142
您想在云存储中存档数据。由于某些数据非常敏感,您希望使用 "不信任任何人"(TNO)的方法来加密数据,以防止云提供商的员工解密您的数据。
你该怎么办?

 
 
 
 

新问题 143
MJTelco 案例研究
公司概况
MJTelco 是一家初创公司,计划在全球快速增长、服务不足的市场建立网络。
该公司拥有创新光通信硬件的专利。基于这些专利,他们可以用廉价的硬件创建许多可靠的高速主干链路。
公司背景
MJTelco 由经验丰富的电信高管创立,采用的技术最初是为克服太空通信挑战而开发的。作为运营的基础,他们需要创建一个分布式数据基础设施,以推动实时分析并结合机器学习来不断优化拓扑结构。由于硬件成本低廉,他们计划超量部署网络,以便考虑到动态区域政治对位置可用性和成本的影响。
他们的管理和运营团队遍布全球各地,在数据消费者和系统提供者之间形成了多对多的关系。经过慎重考虑,他们认为公共云是支持其需求的完美环境。
解决方案理念
MJTelco 正在其实验室成功实施一个概念验证 (PoC) 项目。他们有两个主要需求:
* 扩展和加固其 PoC,以支持在安装数量超过 50,000 个时产生的更多数据流。
* 完善机器学习循环,验证并改进用于控制拓扑定义的动态模型。
MJTelco 还将使用开发/测试、暂存和生产三个独立的运行环境,以满足运行实验、部署新功能和服务生产客户的需要。
业务要求
* 在不可预测的分布式电信用户社区中,以最小的成本扩展生产环境,在需要的时间和地点配置资源。
* 确保其专有数据的安全,以保护其领先的机器学习和分析。
* 为分布在各地的研究人员提供可靠、及时的数据分析途径
* 维护隔离环境,支持机器学习模型的快速迭代,同时不影响客户。
技术要求
确保安全高效地传输和存储遥测数据
快速扩展实例,支持 10,000 至 100,000 个数据提供商,每个提供商可提供多个数据流。
支持监控基础设施的快速迭代,重点关注遥测流和生产学习周期中的数据管道问题。
首席执行官声明
我们的商业模式依赖于我们的专利、分析和动态机器学习。我们的硬件价格低廉,可靠性高,因此具有成本优势。我们需要快速稳定我们的大型分布式数据管道,以实现我们的可靠性和容量承诺。
首席技术官声明
我们的公共云服务必须按照广告宣传的那样运行。我们需要能够扩展并确保数据安全的资源。我们还需要数据科学家能够仔细研究并快速调整模型的环境。由于我们依赖自动化来处理数据,因此我们还需要开发和测试环境能够在我们迭代时正常工作。
首席财务官声明
该项目规模太大,我们无力维护数据和分析所需的硬件和软件。此外,我们也无力为监控如此多的数据源配备运营团队,因此我们将依赖自动化和基础设施。谷歌云的机器学习将使我们的定量研究人员能够解决我们的高价值问题,而不是数据管道问题。
MJTelco 正在构建一个定制界面来共享数据。他们有以下要求
1.他们需要对 PB 级数据集进行聚合。
2.他们需要以极快的响应时间(毫秒)扫描特定时间范围内的行。
您应该推荐哪种 Google 云平台产品组合?

 
 
 
 

新问题 144
要在自己的计算机上使用云机器学习引擎运行 TensorFlow 训练作业,您的命令会以什么开始?

 
 
 
 

新问题 145
在 Cloud Bigtable 中存储数据时,建议最少存储多少数据?

 
 
 
 

新问题 146
扩展 Cloud Dataproc 集群通常涉及 ____。

 
 
 
 

新问题 147
您正在构建一个新的应用程序,需要以可扩展的方式收集数据。该应用程序每天都会不断生成数据,预计到年底每天将生成约 150 GB 的 JSON 数据。您的要求是
* 生产者与消费者脱钩
* 无限期存储原始采集数据,节约空间和成本
* 近实时 SQL 查询
* 维护至少 2 年的历史数据,这些数据将使用 SQL 查询 您应该使用哪种管道来满足这些要求?

 
 
 
 

新问题 148
要在自己的计算机上使用云机器学习引擎运行 TensorFlow 训练作业,您的命令会以什么开始?

 
 
 
 

新问题 149
以下哪些是特征工程技术?(请选择 2 个答案)

 
 
 
 

新问题 150
为 Cloud Bigtable 模式设计行键时的一般建议是什么?

 
 
 
 

新问题 151
您正在按需计费模式下运行 BigQuery 项目,并正在执行一个摄取数据的变更数据捕获 (CDC) 流程。CDC 流程每 10 分钟将 1 GB 的数据加载到一个临时表中,然后将其合并到一个 10 TB 的目标表中。该流程的扫描密集度非常高,您希望探索各种方案,以实现可预测的成本模式。您需要根据从 BigQuery Monitoring 收集到的利用率信息创建一个 BigQuery 预留,并将该预留应用到 CDC 流程。您应该怎么做?

 
 
 
 

新问题 152
您正在将数据仓库迁移到 BigQuery。您已将所有数据迁移到数据集中的表中。您组织中的多个用户将使用这些数据。他们只能根据其团队成员身份查看某些表。您应如何设置用户权限?

 
 
 
 

新问题 153
您正在运行云数据流流水线。该管道在一个窗口内聚合来自 Cloud Pub/ Sub 订阅源的事件,并将聚合结果汇入云存储桶。
源具有一致的吞吐量。您希望使用 Cloud Stackdriver 监控管道行为警报,以确保管道正在处理数据。您应该创建哪些 Stackdriver 警报?

 
 
 
 

新问题 154
作为在 Google 云上部署数据管道的一部分,您正在设计 20 TB 文本文件的存储空间。
您的输入数据是 CSV 格式。多个用户将使用多个引擎在云存储中查询数据,您希望尽量降低查询聚合值的成本。您应该使用哪种存储服务和模式设计?

 
 
 
 

使用 Professional-Data-Engineer Dumps 快速轻松地获得成功: https://www.passtestking.com/Google/Professional-Data-Engineer-practice-exam-dumps.html

管理

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

输入下图中的文字
 

发表评论

zh_TWChinese