본문 바로가기
스터디/Cloud & k8s

[GCP] Dataflow

by zoodi 2021. 3. 30.
728x90

✨Google Cloud Platform의 Data Processing과 관련한 Product

  • Data collection : Pub/sub, Transfer service, Transfer appliance
  • Data transform : Dataflow, Dataproc, Dataprep
  • Data storage : BigQuery, bigtable, GCS
  • Data analysis : BigQuery
  • Data ochestration : Composer 

🧀GCP Dataflow 란?

다양한 데이터 처리 패턴을 개발하고 실행하기위한 통합 프로그래밍 모델 및 관리 서비스입니다. Cloud Dataflow에는 데이터 처리 워크 플로를 정의하기위한 SDK와 Compute Engine, BigQuery 등과 같은 Google Cloud Platform 리소스에서 이러한 워크 플로를 실행할 수 있는 Cloud Platform 관리 서비스가 포함되어 있습니다.

 

Cloud Dataflow로 데이터 변환

주요 특징

자동화된 리소스 관리

  • Cloud Dataflow는 처리 리소스의 프로비저닝 및 관리를 자동화하여 대기 시간을 최소화하고 사용률을 극대화합니다. 손으로 인스턴스를 시작하거나 예약하지 않아도됩니다.

동적 작업 재균등화

  • 작업 분할이 자동화 및 최적화되어 지연 작업의 부하를 동적으로 분산할 수 있습니다. '핫 키'에 집착하거나 입력 데이터를 사전 처리할 필요가 없습니다.

안정적이고 일관된 단1회 처리

  • 데이터 크기, 클러스터 크기, 처리 패턴 또는 파이프라인의 복잡성에 상관없이 일관되고 정확한 내결함성 실행을 기본적으로 지원합니다.

수평식 자동확장

  • 최적의 처리량을 위한 작업자 리소스의 수평식 자동 확장으로 전반적인 가격 대비 성능이 개선됩니다.

통합 프로그래밍 모델

  • Apache Beam SDK는 스트리밍 및 일괄 데이터 모두에 다양한 MapReduce 유사 작업, 강력한 기간 설정, 세밀한 수정 제어를 제공합니다.

커뮤니티 주도 혁신

  • Cloud Dataflow 프로그래밍 모델의 확장을 원하는 개발자는 Apache Beam에서 퍼오거나 참여하면 됩니다.




🍦참고자료

cloud.google.com/dataflow?hl=ko

 

Dataflow  |  Google Cloud

Dataflow는 자동 확장 및 일괄 처리를 통해 지연 시간, 처리 시간, 비용을 최소화하는 완전 관리형 스트리밍 분석 서비스입니다.

cloud.google.com

goodit.tistory.com/entry/Cloud-Dataflow-%EB%9E%80

 

Cloud Dataflow 란?

Cloud Dataflow ? Cloud Dataflow는 다양한 데이터 처리 패턴을 개발하고 실행하기위한 통합 프로그래밍 모델 및 관리 서비스입니다. Cloud Dataflow에는 데이터 처리 워크 플로를 정의하기위한 SDK와 Compute En

goodit.tistory.com

 

728x90

'스터디 > Cloud & k8s' 카테고리의 다른 글

[GCP] Dataprep  (0) 2021.03.30
[GCP] Dataproc  (0) 2021.03.30
[GCP] Transfer appliance  (0) 2021.03.30
[GCP] Transfer Service  (0) 2021.03.30
[GCP] Pub/sub  (0) 2021.03.30

댓글