전문가용 데이터 엔지니어 덤프 - 첫 번째 시도 성공 보장 [Q136-Q154]

게시 날짜 10월 3, 2024

이 게시물 평가하기

프로페셔널-데이터 엔지니어 덤프 - 첫 번째 시도 성공 보장

100% 보장 다운로드 Professional-Data-Engineer 시험 덤프 PDF Q&A

Google 전문가-데이터 엔지니어 인증 시험은 데이터 엔지니어링 분야에서 일하는 개인의 기술과 지식을 검증하기 위해 고안되었습니다. Google 공인 프로페셔널 데이터 엔지니어 시험 인증은 Google 클라우드 플랫폼 서비스를 사용하여 데이터 처리 시스템을 설계, 구축 및 유지 관리하는 데 전문성을 갖춘 전문가를 대상으로 합니다. 전문 데이터 엔지니어 시험은 데이터 처리 시스템을 설계, 구현, 관리하는 능력과 데이터 분석 및 머신 러닝 개념에 대한 이해도를 평가합니다.

새 질문 136
화학 회사에서 고객 주문에 대한 문서를 수동으로 확인해야 합니다. 영업 상담원이 주문의 세부 정보를 얻을 수 있도록 게시/서브에서 풀 구독을 사용합니다. 다른 영업 상담원에게 주문을 두 번 처리하지 않도록 하고 이 워크플로우에 복잡성을 더하지 않도록 해야 합니다.
어떻게 해야 하나요?

대기 중인 메시지를 모니터링하는 트랜잭션 데이터베이스를 만듭니다.

상담원의 시스템에서 처리된 주문을 모니터링하려면 새 게시/서브 푸시 구독을 만드세요.

풀 구독에서 퍼블리시/정확한 1회 구독을 사용하세요.

영업 상담원에게 메시지를 보내기 전에 데이터 흐름에서 Deduphcate PTransform을 사용합니다.

퍼블리싱/서브 정확히 한 번만 배달은 구독이 퍼블리싱/서브에 정의된 고유 메시지 ID를 기반으로 메시지를 중복해서 배달하지 않도록 보장하는 기능입니다. 이 기능은 이 시나리오에서 사용 중인 풀 구독 유형에서만 지원됩니다. 정확히 한 번만 배달을 사용 설정하면 영업 상담원이 각 주문을 한 번만 처리하고 주문이 손실되거나 중복되지 않도록 할 수 있습니다. 또한 보류 중이거나 처리된 메시지를 모니터링하기 위해 별도의 데이터베이스나 가입을 만들 필요가 없으므로 워크플로우가 간소화됩니다. 참조:
* 정확히 한 번만 제공 | Cloud Pub/Sub 문서
* 클라우드 퍼블릭/서브 정확히 한 번 제공 기능이 이제 GA(일반 제공)로 제공됩니다.

새 질문 137
회사에서 공장 현장의 실시간 센서 데이터를 Bigtable로 스트리밍하고 있는데 성능이 극도로 저하되는 것을 발견했습니다. 실시간 대시보드를 채우는 쿼리에서 Bigtable 성능을 개선하려면 행 키를 어떻게 재설계해야 할까요?

형식의 행 키를 사용합니다.

# 형식의 행 키를 사용합니다.

>## 형식의 행 키를 사용합니다.

빅테이블의 모범 사례에 따르면 행 키는 타임스탬프만 있거나 시작 시 타임스탬프가 있어야 한다고 명시되어 있습니다.
센서드와 타임스탬프를 행키로 사용하는 것이 좋습니다.

새 질문 138
Cloud Pub/Sub의 데이터를 BigQuery의 정적 참조 데이터로 보강하기 위해 Apache Beam 파이프라인을 설계하고 있습니다. 참조 데이터는 단일 워커의 메모리에 들어갈 만큼 충분히 작습니다. 파이프라인은 분석을 위해 보강된 결과를 BigQuery에 기록해야 합니다. 이 파이프라인은 어떤 작업 유형과 변환을 사용해야 하나요?

일괄 작업, PubSubIO, 사이드 입력

스트리밍 작업, PubSubIO, JdbcIO, 사이드 출력

스트리밍 작업, PubSubIO, BigQueryIO, 사이드 입력

스트리밍 작업, PubSubIO, BigQueryIO, 사이드 출력

새 질문 139
클라우드 빅테이블에 데이터를 저장할 때 권장되는 최소 저장 데이터 용량은 얼마인가요?

500TB

1GB

1TB

500GB

Cloud Bigtable은 관계형 데이터베이스가 아닙니다. SQL 쿼리, 조인 또는 다중 행 트랜잭션을 지원하지 않습니다. 1TB 미만의 데이터에는 적합한 솔루션이 아닙니다.

새 질문 140
Kafka 클러스터를 통해 Redis 클러스터에 스트리밍 데이터 삽입을 설정합니다. 두 클러스터는 모두
컴퓨트 엔진 인스턴스. 필요에 따라 생성, 회전, 파기할 수 있는 암호화 키를 사용하여 미사용 데이터를 암호화해야 합니다. 어떻게 해야 하나요?

전용 서비스 계정을 만들고, 미사용 시 암호화를 사용하여 저장된 데이터를 참조할 수 있습니다.
API 서비스 호출의 일부로 엔진 클러스터 인스턴스를 계산합니다.

클라우드 키 관리 서비스에서 암호화 키를 생성합니다. 이 키를 사용하여 모든 Compute Engine 클러스터 인스턴스에서 데이터를 암호화하세요.

로컬에서 암호화 키를 생성합니다. 클라우드 키 관리 서비스에 암호화 키를 업로드합니다. 이 키를 사용하여 모든 Compute Engine 클러스터 인스턴스에서 데이터를 암호화하세요.

클라우드 키 관리 서비스에서 암호화 키를 생성합니다. 컴퓨트 엔진 클러스터 인스턴스의 데이터에 액세스할 때 API 서비스 호출에서 해당 키를 참조하세요.

새 질문 141
회사에 대한 보고서를 생성하는 데 사용되는 데이터가 BigQuery에 있습니다. 일부 주간 임원 보고서 필드가 회사 표준에 따른 형식과 일치하지 않는 것을 발견했습니다(예: 보고서 오류에는 다른 전화 형식 및 다른 국가 코드 식별자가 포함됨). 이것은 자주 발생하는 문제이므로 데이터를 정규화하기 위해 반복 작업을 만들어야 합니다. 코딩이 필요 없는 빠른 솔루션을 원하는데 어떻게 해야 하나요?

클라우드 데이터 퓨전 및 랭글러를 사용하여 데이터를 정규화하고 반복 작업을 설정하세요.

BigQuery 및 GoogleSQL을 사용하여 데이터를 정규화하고 BigQuery에서 반복 쿼리를 예약합니다.

Spark 작업을 생성하고 데이터프록 서버리스에 제출하세요.

데이터 흐름 SQL을 사용하여 데이터를 정규화하는 작업을 만들고, 작업을 처음 실행한 후 파이프라인이 반복적으로 실행되도록 예약합니다.

Cloud Data Fusion은 그래픽 인터페이스로 데이터 파이프라인을 구축하고 관리할 수 있는 완전 관리형 클라우드 네이티브 데이터 통합 서비스입니다. 랭글러는 스프레드시트와 같은 UI를 사용하여 데이터를 대화형으로 탐색, 정리 및 변환할 수 있는 Cloud Data Fusion의 기능입니다. 랭글러를 사용하여 데이터 구문 분석, 서식 지정, 바꾸기, 유효성 검사 등 다양한 지시문을 적용하여 BigQuery의 데이터를 정규화할 수 있습니다. 또한 결과를 미리 보고 랭글링된 데이터를 BigQuery 또는 다른 대상으로 내보낼 수 있습니다. 그런 다음, 매주 또는 매일과 같은 일정에 따라 랭글러 파이프라인을 실행하도록 Cloud Data Fusion에서 반복 작업을 설정할 수 있습니다. 이렇게 하면 보고서의 데이터를 정규화하기 위해 코드 없이 빠르게 솔루션을 만들 수 있습니다. 참조:
클라우드 데이터 퓨전 개요
랭글러 개요
BigQuery의 데이터 래글링
[스케줄링 파이프라인]

새 질문 142
클라우드 스토리지에 데이터를 보관하려고 합니다. 일부 데이터는 매우 민감하므로 클라우드 제공업체 직원이 데이터를 해독하지 못하도록 데이터를 암호화하는 '아무도 신뢰하지 않음(TNO)' 방식을 사용하려고 합니다.
어떻게 해야 하나요?

gcloud kms 키 만들기를 사용하여 대칭 키를 만듭니다. 그런 다음 gcloud kms encrypt를 사용하여 키와 고유한 추가 인증 데이터(AAD)로 각 보관 파일을 암호화합니다. gsutil cp를 사용하여 암호화된 각 파일을 클라우드 스토리지 버킷에 업로드하고 AAD를 Google 클라우드 외부에 보관합니다.

gcloud kms keys create를 사용하여 대칭 키를 만듭니다. 그런 다음 gcloud kms encrypt를 사용하여 이 키로 각 보관 파일을 암호화합니다. gsutil cp를 사용하여 암호화된 각 파일을 클라우드 스토리지 버킷에 업로드합니다.
이전에 암호화에 사용한 키를 수동으로 파기하고 키를 한 번 돌린 다음 키를 한 번 회전합니다.

.boto 구성 파일에 고객 제공 암호화 키(CSEK)를 지정합니다. gsutil cp를 사용하여 각 보관 파일을 클라우드 스토리지 버킷에 업로드합니다. 클라우드 메모리스토어에 CSEK를 비밀의 영구 저장소로 저장합니다.

.boto 구성 파일에 고객 제공 암호화 키(CSEK)를 지정합니다. gsutil cp를 사용하여 각 아카이브 파일을 클라우드 스토리지 버킷에 업로드합니다. 보안 팀만 액세스할 수 있는 다른 프로젝트에 CSEK를 저장합니다.

새 질문 143
MJTelco 사례 연구
회사 개요
MJTelco는 전 세계에서 빠르게 성장하고 있는 소외된 시장에 네트워크를 구축하려는 스타트업입니다.
이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 안정적인 고속 백본 링크를 많이 만들 수 있습니다.
회사 배경
숙련된 통신사 경영진이 설립한 MJTelco는 원래 우주에서의 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본은 실시간 분석을 주도하고 머신 러닝을 통합하여 토폴로지를 지속적으로 최적화하는 분산형 데이터 인프라를 구축하는 것입니다. 하드웨어가 저렴하기 때문에 역동적인 지역 정치가 위치 가용성과 비용에 미치는 영향을 고려할 수 있도록 네트워크를 과도하게 배포할 계획입니다.
이 회사의 관리 및 운영 팀은 전 세계 곳곳에 위치하여 시스템에서 데이터 소비자와 제공자 간의 다대다 관계를 형성하고 있습니다. 신중한 검토 끝에 퍼블릭 클라우드가 이러한 요구 사항을 지원하는 완벽한 환경이라고 판단했습니다.
솔루션 개념
MJTelco는 실험실에서 성공적인 개념 증명(PoC) 프로젝트를 실행하고 있습니다. 여기에는 두 가지 주요 요구 사항이 있습니다:
* 50,000개 이상의 설치로 늘어날 때 생성되는 훨씬 더 많은 데이터 흐름을 지원하기 위해 PoC를 확장하고 강화합니다.
* 머신 러닝 주기를 개선하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선합니다.
또한 개발/테스트, 스테이징, 프로덕션의 세 가지 운영 환경을 사용하여 실험을 실행하고 새로운 기능을 배포하며 프로덕션 고객에게 서비스를 제공하는 데 필요한 요구 사항을 충족할 것입니다.
비즈니스 요구 사항
* 예측할 수 없는 분산된 통신 사용자 커뮤니티에서 필요할 때 언제 어디서나 리소스를 인스턴스화하여 최소한의 비용으로 프로덕션 환경을 확장할 수 있습니다.
* 최첨단 머신 러닝 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구 인력으로부터 분석에 필요한 데이터에 안정적이고 시기적절하게 액세스 제공
* 고객에게 영향을 주지 않으면서 머신러닝 모델의 신속한 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장
인스턴스를 빠르게 확장하여 각각 여러 개의 플로우를 가진 10,000~100,000개의 데이터 공급자를 지원하세요.
하루에 약 100m 레코드를 저장하는 최대 2년간의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 지원 원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
저희의 비즈니스 모델은 특허, 분석 및 동적 머신 러닝에 의존합니다. 우리의 저렴한 하드웨어는 높은 안정성으로 구성되어 있어 비용 측면에서 이점을 제공합니다. 안정성과 용량 약속을 지키기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 데이터를 안전하게 보호하고 확장할 수 있는 리소스가 필요합니다. 또한 데이터 과학자들이 신중하게 연구하고 모델을 신속하게 조정할 수 있는 환경이 필요합니다. 데이터 처리를 위해 자동화에 의존하기 때문에 반복 작업을 수행할 수 있는 개발 및 테스트 환경도 필요합니다.
CFO 성명서
프로젝트 규모가 너무 커서 데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지 관리할 수 없습니다. 또한 수많은 데이터 피드를 모니터링할 운영팀을 둘 여유가 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신 러닝을 통해 정량적 연구자들은 데이터 파이프라인의 문제 대신 가치가 높은 문제에 집중할 수 있게 될 것입니다.
MJTelco는 데이터 공유를 위한 사용자 지정 인터페이스를 구축하고 있습니다. 다음과 같은 요구 사항이 있습니다:
1. 페타바이트 규모의 데이터 집합에 대한 집계를 수행해야 합니다.
2. 매우 빠른 응답 시간(밀리초)으로 특정 시간 범위의 행을 스캔해야 합니다.
어떤 Google Cloud Platform 제품 조합을 추천하나요?

클라우드 데이터스토어 및 클라우드 빅테이블

클라우드 빅테이블 및 클라우드 SQL

빅쿼리 및 클라우드 빅테이블

BigQuery 및 클라우드 스토리지

새 질문 144
클라우드 머신 러닝 엔진을 사용하여 자신의 컴퓨터에서 텐서플로 트레이닝 작업을 실행하려면 명령은 무엇으로 시작하나요?

GCLOUD ML-엔진 로컬 트레인

G클라우드 ML-엔진 잡 제출 교육

GCLOUD ML-엔진 채용 교육 현지 제출

Cloud ML 엔진을 사용하여 자신의 컴퓨터에서 TensorFlow 프로그램을 실행할 수 없습니다.

설명
gcloud ml-엔진 로컬 트레인 - 클라우드 ML 엔진 트레이닝 작업을 로컬에서 실행 이 명령은 라이브 클라우드 ML 엔진 트레이닝 작업과 유사한 환경에서 지정된 모듈을 실행합니다.
이는 분산 모델을 테스트할 때 특히 유용하며, 클라우드 ML 엔진 클러스터 구성과 제대로 상호 작용하는지 확인할 수 있기 때문입니다.
참조: https://cloud.google.com/sdk/gcloud/reference/ml-engine/local/train

새 질문 145
클라우드 빅테이블에 데이터를 저장할 때 권장되는 최소 저장 데이터 용량은 얼마인가요?

500TB

1GB

1TB

500GB

Cloud Bigtable은 관계형 데이터베이스가 아닙니다. SQL 쿼리, 조인 또는 다중 행 트랜잭션을 지원하지 않습니다. 1TB 미만의 데이터에는 적합한 솔루션이 아닙니다.
참조:
https://cloud.google.com/bigtable/docs/overview#title_short_and_other_storage_options

새 질문 146
Cloud Dataproc 클러스터를 확장하려면 일반적으로 ____.

워커 노드 수를 늘리거나 줄입니다.

마스터 노드 수 증가 또는 감소

단일 노드에서 더 많은 애플리케이션을 실행하기 위한 메모리 이동

사용하지 않는 노드에서 주기적으로 애플리케이션 삭제

Cloud Dataproc 클러스터를 생성한 후에는 클러스터에서 작업이 실행 중일 때에도 언제든지 클러스터의 작업자 노드 수를 늘리거나 줄여서 클러스터를 확장할 수 있습니다. Cloud Dataproc 클러스터는 일반적으로 다음과 같이 확장됩니다:
1) 작업자 수를 늘려 작업을 더 빠르게 진행합니다.
2) 비용을 절감하기 위해 근로자 수를 줄입니다.
3) 노드 수를 늘려 사용 가능한 Hadoop 분산 파일 시스템(HDFS) 스토리지 확장 참조: https://cloud.google.com/dataproc/docs/concepts/scaling-clusters

새 질문 147
확장 가능한 방식으로 데이터를 수집해야 하는 새 애플리케이션을 구축하고 있습니다. 애플리케이션에서 하루 종일 데이터가 지속적으로 도착하며, 연말까지 하루에 약 150GB의 JSON 데이터가 생성될 것으로 예상됩니다. 요구 사항은 다음과 같습니다:
* 생산자와 소비자 분리
* 수집된 원시 데이터의 공간 및 비용 효율적인 저장, 무기한 보관 가능
* 실시간에 가까운 SQL 쿼리
* SQL로 쿼리할 최소 2년의 기록 데이터를 유지해야 합니다. 이러한 요구 사항을 충족하려면 어떤 파이프라인을 사용해야 하나요?

API를 제공하는 애플리케이션을 만듭니다. API를 폴링하고 클라우드 스토리지에 데이터를 압축된 JSON 파일로 쓰는 도구를 작성합니다.

데이터를 저장하기 위해 Cloud SQL 데이터베이스에 쓰는 애플리케이션을 만듭니다. 데이터베이스의 주기적 내보내기를 설정하여 클라우드 저장소에 쓰고 BigQuery에 로드합니다.

Cloud Pub/Sub에 이벤트를 게시하는 애플리케이션을 만들고, Cloud Dataproc에서 Spark 작업을 생성하여 JSON 데이터를 영구 디스크의 HDFS에 저장된 Avro 형식으로 변환합니다.

Cloud Pub/Sub에 이벤트를 게시하는 애플리케이션을 만들고, JSON 이벤트 페이로드를 Avro로 변환하는 Cloud 데이터 흐름 파이프라인을 생성하여 데이터를 Cloud Storage 및 BigQuery에 기록합니다.

새 질문 148
클라우드 머신 러닝 엔진을 사용하여 자신의 컴퓨터에서 텐서플로 트레이닝 작업을 실행하려면 명령은 무엇으로 시작하나요?

GCLOUD ML-엔진 로컬 트레인

G클라우드 ML-엔진 잡 제출 교육

GCLOUD ML-엔진 채용 교육 현지 제출

Cloud ML 엔진을 사용하여 자신의 컴퓨터에서 TensorFlow 프로그램을 실행할 수 없습니다.

gcloud ml-엔진 로컬 트레인 - 클라우드 ML 엔진 트레이닝 작업을 로컬에서 실행 이 명령은 라이브 클라우드 ML 엔진 트레이닝 작업과 유사한 환경에서 지정된 모듈을 실행합니다.
이는 분산 모델을 테스트할 때 특히 유용하며, 클라우드 ML 엔진 클러스터 구성과 제대로 상호 작용하는지 확인할 수 있기 때문입니다.

새 질문 149
다음 중 기능 엔지니어링 기술이란 무엇인가요? (정답 2개 선택)

숨겨진 기능 레이어

기능 우선순위 지정

교차된 기능 열

연속 기능의 버킷화

설명
효과적인 모델을 학습하려면 올바른 기능 열 세트를 선택하고 제작하는 것이 핵심입니다.
버킷화는 연속 피처의 전체 범위를 일련의 연속된 빈/버킷으로 나눈 다음, 해당 값이 어느 버킷에 속하는지에 따라 원래의 숫자 피처를 범주형 피처인 버킷 ID로 변환하는 프로세스입니다.
각 기본 특징 열을 개별적으로 사용하는 것만으로는 데이터를 설명하기에 충분하지 않을 수 있습니다. 서로 다른 특징 조합 간의 차이점을 학습하려면 모델에 교차 특징 열을 추가할 수 있습니다.
참조:
https://www.tensorflow.org/tutorials/wide#selecting_and_engineering_features_for_the_model

새 질문 150
클라우드 빅테이블 스키마에 대한 행 키를 설계할 때 일반적으로 권장되는 사항은 무엇인가요?

행 키에 여러 시계열 값을 포함합니다.

행을 8비트 정수로 유지합니다.

행 키를 적당히 짧게 유지하세요.

필드가 허용하는 한 행 키를 유지합니다.

일반적인 가이드는 행 키를 적당히 짧게 유지하는 것입니다. 행 키가 길면 메모리와 저장 공간이 추가로 필요하고 Cloud Bigtable 서버에서 응답을 받는 데 걸리는 시간이 길어집니다.
참조: https://cloud.google.com/bigtable/docs/schema-design#row-keys

새 질문 151
온디맨드 청구 모델에서 BigQuery 프로젝트를 실행 중이며 데이터 a를 수집하는 변경 데이터 캡처(CDC) 프로세스를 실행하고 있습니다. CDC 프로세스는 10분마다 1GB의 데이터를 임시 테이블에 로드한 다음 10TB 대상 테이블로 병합을 수행합니다. 이 프로세스는 매우 스캔 집약적이며 예측 가능한 비용 모델을 활성화하기 위한 옵션을 탐색하려고 합니다. BigQuery 모니터링에서 수집한 사용량 정보를 기반으로 BigQuery 예약을 생성하고 이 예약을 CDC 프로세스에 적용해야 합니다. 어떻게 해야 하나요?

작업에 대한 BigQuery 예약을 만듭니다.

작업을 실행하는 서비스 계정에 대한 BigQuery 예약을 만듭니다.

데이터 집합에 대한 BigQuery 예약을 만듭니다.

프로젝트에 대한 BigQuery 예약을 만듭니다.

https://cloud.google.com/blog/products/data-analytics/manage-bigquery-costs-with-custom-quotas.
프로젝트에 대한 BigQuery 예약을 만드는 것이 가장 적합한 솔루션인 이유는 다음과 같습니다:
프로젝트 수준 예약: BigQuery 예약은 프로젝트 수준에서 적용됩니다. 즉, 예약된 슬롯(처리 용량)은 해당 프로젝트 내에서 실행 중인 모든 작업 및 쿼리에서 공유됩니다. CDC 프로세스는 BigQuery 사용량에 크게 기여하므로, 전체 프로젝트에 대해 슬롯을 예약하면 프로젝트의 다른 활동과 관계없이 CDC 프로세스가 항상 필요한 리소스에 액세스할 수 있습니다.
예측 가능한 비용 모델: 예약은 고정적이고 예측 가능한 비용 모델을 제공합니다. 각 쿼리에 대해 온디맨드 가격을 지불하는 대신 예약된 슬롯에 대해 고정된 월별 요금을 지불합니다. 이렇게 하면 온디맨드 청구와 관련된 비용의 변동성이 제거되므로 BigQuery 비용을 더 쉽게 예산하고 예측할 수 있습니다.
BigQuery 모니터링: BigQuery 모니터링을 사용하여 프로젝트 내 CDC 프로세스 및 기타 쿼리의 과거 사용 패턴을 분석할 수 있습니다. 이 정보를 통해 적절한 양의 슬롯을 예약하여 비용을 최적화하면서 워크로드를 처리할 수 있는 충분한 용량을 확보할 수 있습니다.
다른 옵션이 적합하지 않은 이유
A . 작업에 대한 BigQuery 예약을 만듭니다: BigQuery는 개별 작업 수준에서는 예약을 지원하지 않습니다. 예약은 프로젝트 또는 과제 수준에서 적용됩니다.
B . 작업을 실행하는 서비스 계정에 대한 BigQuery 예약을 만듭니다: 할당(사용자 그룹 또는 서비스 계정)에 대한 예약을 만들 수 있지만, 이 시나리오에서는 프로젝트 수준 예약보다 효율성이 떨어집니다. 프로젝트 수준 예약은 사용되는 서비스 계정에 관계없이 프로젝트 내의 모든 작업에 적용됩니다.
C . 데이터 집합에 대한 BigQuery 예약을 만듭니다: BigQuery는 데이터 집합 수준에서 예약을 지원하지 않습니다.
사용량 분석을 기반으로 프로젝트에 대한 BigQuery 예약을 생성하면 예측 가능한 비용 모델을 달성하는 동시에 CDC 프로세스 및 기타 쿼리가 원활하게 실행되는 데 필요한 리소스를 확보할 수 있습니다.

새 질문 152
데이터 웨어하우스를 BigQuery로 마이그레이션하고 있습니다. 모든 데이터를 데이터 집합의 테이블로 마이그레이션했습니다. 조직의 여러 사용자가 데이터를 사용할 것입니다. 사용자는 팀 멤버십에 따라 특정 테이블만 볼 수 있어야 합니다. 사용자 권한을 어떻게 설정해야 하나요?

각 테이블의 테이블 수준에서 사용자/그룹 데이터 뷰어 액세스 권한을 할당합니다.

데이터가 있는 동일한 데이터 집합에서 각 팀에 대한 SQL 보기를 만들고 사용자/그룹 데이터 뷰어 액세스 권한을 SQL 보기에 할당합니다.

데이터가 있는 동일한 데이터 집합에서 각 팀에 대해 승인된 보기를 만들고, 사용자/그룹 데이터 뷰어 액세스 권한을 승인된 보기에 할당합니다.

각 팀별로 만든 데이터 집합에서 각 팀에 대해 승인된 보기를 만듭니다. 데이터가 있는 데이터 집합에 권한이 부여된 보기 데이터 뷰어 액세스 권한을 할당합니다. 권한이 부여된 보기가 있는 데이터 집합에 대한 사용자/그룹 데이터 뷰어 액세스 권한을 할당합니다.

새 질문 153
Cloud 데이터 흐름 스트리밍 파이프라인을 운영 중입니다. 이 파이프라인은 하나의 창 내에서 Cloud Pub/Sub 구독 소스로부터 이벤트를 집계하고, 그 결과 집계된 내용을 Cloud 저장소 버킷에 싱크합니다.
소스의 처리량이 일정합니다. Cloud Stackdriver로 파이프라인의 동작에 대한 알림을 모니터링하여 데이터를 처리하고 있는지 확인하려고 합니다. 어떤 Stackdriver 경고를 생성해야 하나요?

소스에 대한 구독/넘버_미전송_메시지 감소와 대상에 대한 인스턴스/스토리지/사용된_바이트의 변화율 증가에 기반한 알림입니다.

소스에 대한 구독/num_undelivered_messages의 증가와 대상에 대한 인스턴스/스토리지/사용된_바이트의 변화율 감소에 기반한 알림입니다.

소스에 대한 인스턴스/스토리지/사용된_바이트의 감소와 대상에 대한 구독/넘버_미전송_메시지의 변화율 증가에 따른 알림

소스에 대한 인스턴스/스토리지/사용된_바이트의 증가와 대상에 대한 구독/넘버_미전송_메시지의 변화율 감소에 기반한 알림

새 질문 154
Google Cloud에 데이터 파이프라인을 배포하기 위한 일환으로 20TB의 텍스트 파일을 위한 스토리지를 설계하고 있습니다.
입력 데이터가 CSV 형식입니다. 여러 엔진으로 클라우드 스토리지의 데이터를 쿼리할 여러 사용자의 집계 값 쿼리 비용을 최소화하려고 합니다. 어떤 스토리지 서비스와 스키마 디자인을 사용해야 하나요?

Cloud Bigtable을 스토리지로 사용합니다. 컴퓨트 엔진 인스턴스에 HBase 셸을 설치하여 클라우드 빅테이블 데이터를 쿼리합니다.

저장소에는 Cloud Bigtable을 사용합니다. 쿼리를 위해 BigQuery에서 영구 테이블로 연결합니다.

클라우드 스토리지를 저장소로 사용합니다. 쿼리를 위해 BigQuery에서 영구 테이블로 링크합니다.

클라우드 스토리지를 저장소로 사용합니다. 쿼리를 위해 BigQuery에서 임시 테이블로 연결합니다.

로드 중 …